Jupter Notebookに機械学習するためのデータを取り込もう!

Python python

皆さん、こんにちは。知也です。

機械学習やディープラーニングということを耳にすることが多くなってきましたね。

今あるデータをもっと活用できないかな〜。
他の人とは違ったデータ分析ができるようになりたい。
機械学習ってどうやってやるんだろう・・・

今回はそんなもやもやを背負った非エンジニアの方に向けて、日々扱っているデータをJupter Notebookに取り込んで可視化する所までを説明していきたいと思います。

PythonはJupter Notebook上でインポートするだけで様々な機能を使用することができるので、初学者の方でも機械学習を行うことはそんなに難しいことではありません。

細かな説明よりも具体的なイメージを付けた方が早いと思いますので今日は下記テーマでお話ししていきます。少しずつでいいので前に進んで行きましょう。

  • Jupter Notebookとは
  • モジュール、パッケージ、ライブラリとは
  • CSVファイルをインポートして可視化させよう

Jupter Notebookとは

実行結果を記録しながら管理できる、データ分析用のツールです。ブラウザ上で誰でも無料で使用することができます。

実際に私はアプリマーケティングの仕事をしているのでデータを扱うことが多いのですが、隣の席のデータサイエンティスト(アメリカ人)がJupter Notebookでアプリのデータ分析・可視化していたので実用性は間違いないと思います。

Jupter NotebookはPython以外の言語にも対応しているみたいですが、機械学習においてはPythonでの記述を覚えていけば問題ないでしょう。

Pythonをインストールしていない方、Jupter Notebookの基本的な使い方の理解がまだの方はこちらをご覧ください。
» 10秒で始められる、初めてのPyhotn【Mac編】
» データ分析に欠かせない!Jupyter Notebookの始め方 【初級者向け】

モジュール、パッケージ、ライブラリとは

ここでよく混乱するこの3つの言葉を説明しておきます。

モジュール、パッケージ、ライブラリの違い

モジュールとはPythonファイル(.py)のことです。

既にあるモジュールにはプログラムが記述されているので、我々はモジュールをインポートさえすれば、そのモジュールのプログラムを簡単に実行させることができます。

複数のモジュールを1つにまとめたものをパッケージと言います。そしてモジュール、パッケージをまとめて、広義の意味としてライブラリと言ったりします。

正直この言葉の定義は人によって違ったり、そこまで明確に区別されていないようなので、最初はざっくり理解しておけばOKです。

  • モジュールとはPythonのプログラムファイルのこと。
    (Numpyのarrayや、PandasのData Frame)
  • パッケージとは複数のモジュールをまとめたもの。
    (NumpyやPandas)
  • ライブラリとはそれらを組み合わせた意味として使われる。

CSVファイルをインポートして可視化させよう

まずは何でもいいのでCSVファイルを用意します。今回私はtest.csvというファイルを作成しました。

この時必ず、jupyter notebookで開いた同じディレクトリ(フォルダ)に作成したCSVファイルを格納してください。これが違うフォルダにあるとPCがファイルを見つけることができずエラーが起きます。

Pandasとは

データを効率的に扱うためのパッケージです。
データ読み込みや、追加、削除、修正などを簡単に行うためのものです。今回はこのPandasを使ってデータを読み込んで行きます。

あとは下記の手順通りに記述して実行するだけです。
Pandasはよくpdと略されるので import pandas as pdはセットで覚えて起きましょう。

いかがでしたでしょうか。

これで手持ちのファイルをjupyter notebook上で可視化することが出来ました。今回はモジュール、パッケージ、ライブラリについて説明しながら、実際にCSVファイルを読み込む所まで行いました。
パッケージやモジュールにはPandas以外にも数え切れないほどあり、その中に機械学習やデータをグラフ化するものなどがあります。

これらを後々使いこなせるようになればデータアナリスト、データサイエンティストという道も見えてくるかもしれませんね。