close
プログラミング クラウド Microsoft Azure 情報処理資格 基本情報技術者 IT基礎 応用情報技術者 開発・設計方法 オブジェクト指向 内定者・新人研修 プログラミング基礎 アルゴリズム コンピュータ数学 内定者研修 新人研修 ヒューマンスキル プロジェクトマネジメント プレゼンテーション リーダーシップ 組織マネジメント ネゴシエーション ロジカルシンキング Java UI/UX HTTP JavaScript基礎 情報処理資格 ネットワークスペシャリスト ネットワーク インターネットルーティング応用 IPアドレス データベース応用 SQL応用 パフォーマンスチューニング データベース設計 ER図 概念設計(データベース) 論理設計(データベース) IT資格 Linux基礎 OS・システム基盤 セキュリティ TCP/IP OSI参照モデル データベースセキュリティ ファイアウォール 標的型攻撃 SQLインジェクション ネットワーク基本設計 CCNA Cisco プロジェクトマネジメント資格 情報処理資格プロジェクトマネージャ 情報処理安全確保支援士 人事給与 財務会計 管理会計 簿記 生産管理 在庫管理 ERP バランススコアカード 情報処理資格 ITアーキテクト 情報処理資格 ITストラテジスト 情報処理資格 ITサービスマネジメント 情報処理資格 システム監査 PMBOK® PMP® プロジェクト計画 WBS リスクコントロール ITIL ITサービスマネジメント 要求定義 要件定義 見積手法 ビジネスインダストリ 業種・業界知識 業務知識 提案力 ソフトウェアテスト基礎 情報処理資格 データベーススペシャリスト ハードウェア基礎 外部設計(基本設計) 内部設計(詳細設計) データベース基礎 SQL基礎 RDBMS 物理設計(データベース) C++ Ruby MVC基礎 Webアプリケーション開発 JavaEE Javaプログラミング応用 フレームワーク MVC応用 Spring フレームワーク ソフトウェアテスト応用 テスト手法 JUnit スマートフォンアプリ開発 Androidアプリ開発 C# 基礎 C# 応用 負荷テスト Javaプログラミング基礎 ソフトウェアテスト コーチング メンタリング HTML/CSS サーバー構築 仮想化技術 KVS (NoSQL) アジャイル スクラム ファシリテーション C言語 ITパスポート JSTQB データサイエンス 単体テスト ユニットテスト キャリアアップ インターネットルーティング基礎 パケット解析 LAN構築 データベース データサイエンティスト トレンド 障害対応 インフラ監視 HTTP/2.0 コンピュータサイエンス VPN ネットワーク物理設計 データベース障害 JavaScript モダンJS (Modern JavaScript) 応用 MVS応用 バックアップ/リカバリ 分散処理 Hadoop Hive Python AI 深層学習(DeepLearning) CentOS Linux応用 Zabbix シェルスクリプト Infrastructure as Code Windowsサーバー基礎 内部設計 Docker DevOps Windowsサーバー応用 NginX chef Ainsible ロジカルライティング R テスト自動化 Jenkins Git 継続的インテグレーション (CI) バージョン管理 Vagrant 要求分析 Redmine 継続的インテグレーション(CI) 継続的デリバリー (CD) ヒューマンリソース管理 Web API マイクロサービス コミュニケーション 業務知識/業界知識 マーケティング 語学 AWS 法務 IoT ビジネスマナー OJT 業務効率化 表計算ソフト オフィスソフト コンプライアンス フロントエンド Subversion PHP 関数型プログラミング Laravel モダンJS (Modern JavaScript) 基礎 Android Studio 機械学習 iOSアプリ開発 ぷプログラミング React 次世代高度IT人材 共創 IPA Raspberry Pi Xamarin スクリプト言語 GoF CUI VBA 資格 ビジネス文書 jQuery 研修参加レポート マネジメント OSPF テーブル設計 アンガーマネジメント クリティカル・シンキング PDU 経営改善 Pマーク 問題解決技法 サイバー攻撃 エンジニア 参加してみた エンゲージメントマネジメント 労働関連法 新人育成 ネットワーク構築 情報セキュリティマネジメント デザインパターン リファクタリング マルチスレッドプログラミング ベンダーコントロール Modern JavaScript 冗長化 VLAN インフラエンジニア チームビルディング テストケース リーダブルコード セキュリティ入門 ネットワーク入門 Node.js npm gulp ビルドツール Python入門 冗長化入門 インフラ実機演習 プロジェクト管理 Active Directory ネットワーク管理 コンテナ 正規化理論 Haskell 品質管理 OpenStack シンギュラリティ DBA中級 プロトコル UX 基本設計 FinTech トラブルシューティング 並列処理 見える化 PMO ロジカルコミュニケーション Deep Learning インデックス設計 超上流工程 BGP Excel C-CENT Selenide プライベートクラウド アセンブラ コンピュータ基礎 工数見積 CCENT 法律知識 失敗から学ぶ プロジェクト失敗事例 PDCA プログラミング入門 非エンジニア向け 4Biz DNS セルフマネジメント 片付け術 サーバーダウン サーバー タイムマネジメント GO言語 プロダクトマネジメント プロダクトマネージャ LVS ロードバランサー 負荷分散 仮想通過 犯罪心理学 情報漏えい SEカレッジ導入事例 IT研修制度を聞いてみた CentOS7 開発環境構築 数字力 財務 IT人材 UI Machine Learning Go言語 (golang) データマイニング 統計学 新人教育 やり直し数学 RDB つながる工場 モチベーション WebSocket WebWorker HTML5 CSS3 Bootstrap 微分・積分 システム設計 決断力 LAMP環境 教育研修担当者向け ルーティング Linux入門 図解術 目標設定 試験対策 インタビュー技法 Vue.js ブロックチェーン DHCP 仕掛け学 BSC 財務諸表 自己分析 RIP スタティックルート バッファオーバーフロー DoS攻撃 システム開発 Wireshark パケットキャプチャ 管理職研修 部下育成 文章力 情報システム部門向け プロジェクトリーダー プロジェクトマネージャ 塗り絵 リスク管理 法改定 会社の仕組み Chainer AI人材 会話術 テスト技法 会社規模199名まで 会社規模49名まで 会社規模99名まで アプリ開発 サーバサイドJava 営業知識 Cloud 栄養学 基本コマンド ウォーターフォールモデル ヘルスケア 論理設計 ニューラルネットワーク ハンズオン UML 顧客ヒアリング マウスで学ぶ Apache EC2 Lightsail M5Stack DevSecOps プロジェクト成果 画像認識 チャットポット コマンド レビュー 基本用語 自動構築 LPIC-1 サーバーサイドJavascript キャリア形成 ワークライフバランス インバスケット テック用語 GitHub Windows エディタ 教養 令和時代 RESTful API 物理設計 会社規模300名以上 データモデリング サーバーサイドJava Webサーバー基礎 Webサーバー応用 Watson IBMWatson Learning Topics OS モバイル コンテスト トレーニング手法 アーキテクチャ 人材モデル インフラ CI/CD Infrastructure as a Code チーム開発 制度づくり Special_Intro AI市場分析 研修ロードマップ 仕事術 デジタルトランスフォーメーション 財務分析手法 情報整理 PowerPoint 新しい研修 オンライン研修 見どころ紹介 統計分析 ディープラーニング G検定 情報処理技術者試験 販売管理 C# テスト計画 Linuxサーバー WEBサーバ構築 http/2 Postfix イーサリアム プロジェクト・メンバ 正規化 パケット実験 作業分解 トラブル調査 ネットワーク設計 Windows server 2016 ネットワーク機器 DX 管理職 最新動向 ポストコロナ時代 IoTデバイス マイコンボード センサ サーバー仮想化 仮想ルータ WAN インターネットVPN 若手エンジニア ITプロジェクト 人事面談 DX人材育成 Java基礎 ZAP 脆弱性診断 NWサービス構築 イノベーション・マネジメント ネットワークセキュリティ ストレッチ Google Cloud Platform 不動産業界 テレワーク(WFH) ドリル GCP ( Google Cloud Platform ) システム業界 PMS テレワーク ビッグデータ NoSQL OWASP

Python で 機械学習 入門 研修コースに参加してみた


2020-05-12 更新

今回参加した研修コースは Python で機械学習入門 です。

SEカレッジでも AI、機械学習、深層学習などのコースが開催されるようになりましたが、いずれも人気です。このコースも満員御礼です!

以前に AzureML でマウスでポチポチしながら機械学習の流れを学ぶコースをレポートしましたが、このコースでは実際に Python を使って学習モデルを作るのを体験するコースでした。

マウスで学ぶ AI 実践 入門編
研修コースに参加してみた

そして、このコースの特徴的な点が、サンプルコードをもとに、それを実行していくだけで、Python をあまり知らなくても、どのような統計手法と Python のライブラリを使えばよいのか、それがわかるコースでした! (わかった気になってる)

ちなみに、弊社の製品にも機械学習を適用できるヒントをつかめました!

 

では、どのような内容だったのか、レポートします!!

コース情報

想定している受講者
  • 統計学の基礎知識
  • Python プログラミングの基礎知識
受講目標 Python を使って簡単な学習モデルを作るまでの流れがわかる

講師紹介

プログラミングカテゴリでは最多登場となる 米山 学 さんです。

米山 学
米山 学
JavaはもちろんPython/PHPなどスクリプト言語、Vue/ReactなどJSだってなんだってテックが大好き。原点をおさえた実践演習で人気

米山さんの講座では Dropbox Paper で講座のドキュメントを用意され、受講者とはブラウザで共有するのですが、とてもコードが共有しやすく、先読みも振り返りもしやすいので、とても重宝しています。

ここでは公開できないので、ぜひ講座を受講して体験ください。

今日の環境

データ分析の流れと、そこで使う代表的なライブラリを実際にチュートリアルでやってみます

  • Anaconda を使う
    • OSS
    • データサイエンスに関わるすべてのものを1つに集まっている
      • 今日使うデータセットも含め、必要なものすべてがインクルードされている
    • 統合開発環境のようなもの
    • 特に Windows は環境構築でハマりがち
      • ライブラリで特にコケる
    • Python 以外に R なども用意されている
  • Jupyter Notebook を使う
    • ブラウザベース
    • REPLのような実行環境
    • 実行結果のグラフなどもその場で表示できる
  • 今日のデータセット

Anaconda はバリバリやる人には不評ですが、初学者にはとてもやさしいですね。

ただ重いので、Miniconda でも同じようなことが出来るのかなぁ、と気になっています。

機械学習やデータサイエンスとは

簡単にデータサイエンスという言葉が何を意味しているのか、サッと解説されました。

  • 様々なデータを統計解析して予測したり、未知の値を分類したりする
  • 機械学習 Machine Learning -> Deep Learning がでてきた
  • Python がよく使われる理由
    • 統計解析で使うライブラリが豊富にある

前準備

まずデータセットを読み込めるよう準備します。

  • Pandas を使う
    • データ操作を行うライブラリ
  • iris.data のラベル付け
    • SepalLength, SepalWidth, PetalLength, PetalWidth, Class
  • iris.data の読み込み
    # 品種ごとにデータを区分け
    setosa = iris[iris["Class"] == "Iris-setosa"]
    versicolor = iris[iris["Class"] == "Iris-versicolor"]
    virginica = iris[iris["Class"] == "Iris-virginica"]

通常何かを表示する場合、print() を使いますが、Jupyter Notebook は変数名の入力だけで表示されます。

基本要約統計量でどんなデータなのか把握する

どんな特徴をもつデータなのか、対象外のデータはどれぐらいありそうなのか、などなど確認します。

  • 要約統計量 ・・・平均値や合計値など
    #要約統計量の表示
    setosa.sum() # 合計
    setosa.min() # 最小値
    setosa.max() # 最大値
    setosa.mean() # 平均値

ピボットテーブル (クロス集計) の作成

  • ex. 各品種ごとの平均を算出
    • pd.pivot_table(第1引数, 第2引数, 第3引数)
    • import numpy as np
      pd.pivot_table(iris, index="Class", aggfunc=np.mean) 

      arrow_downward実行

      Class           PetalLength PetalWidth  SepalLength       SepalWidth
      Iris-setosa     1.464	      0.244	      5.006	      3.418
      Iris-versicolor	4.260	      1.326	      5.936	      2.770
      Iris-virginica	5.552	      2.026	      6.588	      2.974
    • NumPy が提供している定数 aggfunc を使う
    • NumPy を使って Pandas が作られている
    • NumPy と Pandas はめちゃくちゃ使う // 必須
  • ヒストグラムの描画
  • ある値を持つデータがどれだけあるのか確認する
    • x が値, yが度数
    • だいたい度数が高くなるのは平均値
    • 平均値を中心に山型になることを正規曲線分布という
      • キレイな山にならない場合は値のばらつきなども確認できる
  • グラフの描画ができるライブラリ Matplotlib
    • 巨大なので目的に応じたサブライブラリを指定する
      import matplotlib.pyplot as plt
      plt.hist(setosa.SepalLength) #萼片を対象にヒストグラムを作成
      plt.xlabel("SepalLength") #x軸の項目名
      plt.ylabel("Freq") #y軸の項目名 Frequency の略
      plt.show() #グラフ表示

  • 実行結果の解説
    • グラフがいびつなのは iris 全体を指定しているから
    • setosa を指定すると正規曲線になる
    • いまは 50 しかないので、ばらつきがでる -> 1000以上は必要 -> データがあればあるほどよい

四分位数と箱ひげ図

  • データを4つの箱に区切り、真ん中2つを対象とする
  • Q1 から Q3 を四分範囲という
    • 四分範囲から 1.5 倍した両端の値から外れたものは外れ値として解析対象ではなくなる
  • 株価とかでよくつかう
# 箱ひげ図の描画
# 品種ごとに萼片の長さを見比べる
data = [setosa.SepalLength, versicolor.SepalLength, virginica.SepalLength]
plt.boxplot(data) # 箱ひげ図の描画 boxplot()
plt.xlabel("Class") # x軸名
plt.ylabel("SepalLength") # y軸名
# 各品種のラベル
plt.setp(plt.gca(), xlabel=["setosa", "versicolor", "virginica"]) # ラベル付けは setp()
plt.show()

機械学習で学習モデルを作る

データの特徴がわかったところで、そのデータを使って学習モデルを作ります。

まずは学習モデルを作るにあたって、機械学習を行う上で2つの目的があることを説明いただきました。

  • 未知の値を予測する
    • 相関分析
      • 2つのデータ (二変量) に関連があるかどうか調べる
        • どれぐらい関係があるのか数値でわかる
        • 相関係数と呼ばれる
      • -1 <- 0 -> 1
        • 0 だと関係がない
        • 1だと正の相関関係がある
        • -1 だと負の相関関係がある // ある値が上がれば相関する値が下がる
      • x -> y になるかどうか
        • 入力から出力が予測できるかどうか
    • 回帰分析
      • あとでやります
  • データを識別

相関分析

  • 相関分析を correlationCefficent と言う
    • 略して corrcoef
      np.corrcoef(setosa.SepalLength, setosa.SepalWidth)
  • 実行結果
    array([[ 1.        ,  0.74678037],
           [ 0.74678037,  1.        ]])
  • 相関行列が出力される
    x y
    x 1 0.7
    y 0.7 1
  • 結果の解説
    • 0.6 が目安なので、萼片の長さと萼片の幅は相関がある
    • 他 setosa.SepalLength, versicolor.PetalWidth でやってみると 0.08 が検出される (相関がない)

相関があったなら散布図

x と y に実際に値をプロットしてどれぐらい相関があるか見てみる、それが散布図です。

散布図の見方

  • 相関がある = 因果関係がある という訳ではない
    • 例えば 気温 と 水の事故 は相関があるが、因果関係があるかどうかは怪しい
    • 因果関係は逆で考えるとわかりやすい
    • 水の事故が多いから気温が高くなる?
  • なので、相関があることがわかれば、因果関係があるかどうかを調べる

因果関係の分析に使うのが回帰分析

相関関係があると認められれば、今度は実際に予測値が導かれる式を求めます。

  • 回帰分析
    • y = a (x) + b になるのかどうかを分析する
      • 直線と実際にプロットされたデータとの差を見る (残差)
    • scikit-learn を使う
    • 連続データを生成
      • 等差数列という
    • 直線が引けたら y = ax + b の a と b を求める
      • a を ir.coef_ で求める
      • b を ir.intercept_ で求める
import sklearn.linear_model as lm

x = setosa[["SepalLength"]]
y = setosa[["SepalWidth"]]
ir = lm.LinearRegression() #回帰分析モデルの作成
ir.fit(x, y) #実際のデータを分析モデルに当てはめる

# 連続データの生成
px = np.arange(x.min(), x.max(), .01)[:, np.newaxis]

# 予測モデルの作成
py = ir.predict(px)

plt.plot(px, py, color='blue', linewidth=3) #値をプロット
plt.scatter(x, y, color='red')
plt.show()

ir.coef_
array([[ 0.80723367]])

ir.intercept_
array([-0.62301173])

実行結果により、y = ax + b の a と b がわかったところで、このコースは修了しました。

まとめ

このコースでは、Python のサンプルコードをもとに実際に動かしながら、学習モデルを作ってみました。

米山さんのコースはとても不思議で、あまり構文を知らなくても実際に動かしていると、実際に出来ている感覚 (成功体験のようなものだと思うのですが) がつかめるので、とても理解が進みました!

 

私にはとても刺激になったコースで、例えば、ある試験対策コースがあったとして、

  • 受講者の合否結果と相関しそうな因子 (例えば修了率や正解率など) を様々に分析する
  • たとえば相関分析で、相関がありそうなら散布図を使って検証する
  • 相関関係があった因子と合否結果を回帰分析する
  • その結果により、学習状況から合格率を予測する学習モデルができる

こんなアイデアが思い浮かびました。
(アイデアは検証可能になってはじめて価値があるので、ただの戯言です)

 

ということで作りたい意欲が高まるので、Pythonや機械学習未経験者の方には、とてもオススメです!!

 

 

label SE カレッジの無料見学、資料請求などお問い合わせはこちらから!!


SEカレッジについて

label SEカレッジを詳しく知りたいという方はこちらから !!

SEcollege logo
SEカレッジ
IT専門の定額制研修 月額28,000円 ~/ 1社 で IT研修 制度を導入できます。
年間 670 講座をほぼ毎日開催中!!

午前免除 FAQ

タグ一覧