close
プログラミング クラウド Microsoft Azure 情報処理資格 基本情報技術者 IT基礎 応用情報技術者 開発・設計方法 オブジェクト指向 内定者・新人研修 プログラミング基礎 アルゴリズム コンピュータ数学 内定者研修 新人研修 ヒューマンスキル プロジェクトマネジメント プレゼンテーション リーダーシップ 組織マネジメント ネゴシエーション ロジカルシンキング Java UI/UX HTTP JavaScript基礎 情報処理資格 ネットワークスペシャリスト ネットワーク インターネットルーティング応用 IPアドレス データベース応用 SQL応用 パフォーマンスチューニング データベース設計 ER図 概念設計(データベース) 論理設計(データベース) IT資格 Linux基礎 OS・システム基盤 セキュリティ TCP/IP OSI参照モデル データベースセキュリティ ファイアウォール 標的型攻撃 SQLインジェクション ネットワーク基本設計 CCNA Cisco プロジェクトマネジメント資格 情報処理資格プロジェクトマネージャ 情報処理安全確保支援士 人事給与 財務会計 管理会計 簿記 生産管理 在庫管理 ERP バランススコアカード 情報処理資格 ITアーキテクト 情報処理資格 ITストラテジスト 情報処理資格 ITサービスマネジメント 情報処理資格 システム監査 PMBOK® PMP® プロジェクト計画 WBS リスクコントロール ITIL ITサービスマネジメント 要求定義 要件定義 見積手法 ビジネスインダストリ 業種・業界知識 業務知識 提案力 ソフトウェアテスト基礎 情報処理資格 データベーススペシャリスト ハードウェア基礎 外部設計(基本設計) 内部設計(詳細設計) データベース基礎 SQL基礎 RDBMS 物理設計(データベース) C++ Ruby MVC基礎 Webアプリケーション開発 JavaEE Javaプログラミング応用 フレームワーク MVC応用 Spring フレームワーク ソフトウェアテスト応用 テスト手法 JUnit スマートフォンアプリ開発 Androidアプリ開発 C# 基礎 C# 応用 負荷テスト Javaプログラミング基礎 ソフトウェアテスト コーチング メンタリング HTML/CSS サーバー構築 仮想化技術 KVS (NoSQL) アジャイル スクラム ファシリテーション C言語 ITパスポート JSTQB データサイエンス 単体テスト ユニットテスト キャリアアップ インターネットルーティング基礎 パケット解析 LAN構築 データベース データサイエンティスト トレンド 障害対応 インフラ監視 HTTP/2.0 コンピュータサイエンス VPN ネットワーク物理設計 データベース障害 JavaScript モダンJS (Modern JavaScript) 応用 MVS応用 バックアップ/リカバリ 分散処理 Hadoop Hive Python AI 深層学習(DeepLearning) CentOS Linux応用 Zabbix シェルスクリプト Infrastructure as Code Windowsサーバー基礎 内部設計 Docker DevOps Windowsサーバー応用 NginX chef Ainsible ロジカルライティング R テスト自動化 Jenkins Git 継続的インテグレーション (CI) バージョン管理 Vagrant 要求分析 Redmine 継続的インテグレーション(CI) 継続的デリバリー (CD) ヒューマンリソース管理 Web API マイクロサービス コミュニケーション 業務知識/業界知識 マーケティング 語学 AWS 法務 IoT ビジネスマナー OJT 業務効率化 表計算ソフト オフィスソフト コンプライアンス フロントエンド Subversion PHP 関数型プログラミング Laravel モダンJS (Modern JavaScript) 基礎 Android Studio 機械学習 iOSアプリ開発 ぷプログラミング React 次世代高度IT人材 共創 IPA Raspberry Pi Xamarin スクリプト言語 GoF CUI VBA 資格 ビジネス文書 jQuery 研修参加レポート マネジメント OSPF テーブル設計 アンガーマネジメント クリティカル・シンキング PDU 経営改善 Pマーク 問題解決技法 サイバー攻撃 エンジニア 参加してみた エンゲージメントマネジメント 労働関連法 新人育成 ネットワーク構築 情報セキュリティマネジメント デザインパターン リファクタリング マルチスレッドプログラミング ベンダーコントロール Modern JavaScript 冗長化 VLAN インフラエンジニア チームビルディング テストケース リーダブルコード セキュリティ入門 ネットワーク入門 Node.js npm gulp ビルドツール Python入門 冗長化入門 インフラ実機演習 プロジェクト管理 Active Directory ネットワーク管理 コンテナ 正規化理論 Haskell 品質管理 OpenStack シンギュラリティ DBA中級 プロトコル UX 基本設計 FinTech トラブルシューティング 並列処理 見える化 PMO ロジカルコミュニケーション Deep Learning インデックス設計 超上流工程 BGP Excel C-CENT Selenide プライベートクラウド アセンブラ コンピュータ基礎 工数見積 CCENT 法律知識 失敗から学ぶ プロジェクト失敗事例 PDCA プログラミング入門 非エンジニア向け 4Biz DNS セルフマネジメント 片付け術 サーバーダウン サーバー タイムマネジメント GO言語 プロダクトマネジメント プロダクトマネージャ LVS ロードバランサー 負荷分散 仮想通過 犯罪心理学 情報漏えい SEカレッジ導入事例 IT研修制度を聞いてみた CentOS7 開発環境構築 数字力 財務 IT人材 UI Machine Learning Go言語 (golang) データマイニング 統計学 新人教育 やり直し数学 RDB つながる工場 モチベーション WebSocket WebWorker HTML5 CSS3 Bootstrap 微分・積分 システム設計 決断力 LAMP環境 教育研修担当者向け ルーティング Linux入門 図解術 目標設定 試験対策 インタビュー技法 Vue.js ブロックチェーン DHCP 仕掛け学 BSC 財務諸表 自己分析 RIP スタティックルート バッファオーバーフロー DoS攻撃 システム開発 Wireshark パケットキャプチャ 管理職研修 部下育成 文章力 情報システム部門向け プロジェクトリーダー プロジェクトマネージャ 塗り絵 リスク管理 法改定 会社の仕組み Chainer AI人材 会話術 テスト技法 会社規模199名まで 会社規模49名まで 会社規模99名まで アプリ開発 サーバサイドJava 営業知識 Cloud 栄養学 基本コマンド ウォーターフォールモデル ヘルスケア 論理設計 ニューラルネットワーク ハンズオン UML 顧客ヒアリング マウスで学ぶ Apache EC2 Lightsail M5Stack DevSecOps プロジェクト成果 画像認識 チャットポット コマンド レビュー 基本用語 自動構築 LPIC-1 サーバーサイドJavascript キャリア形成 ワークライフバランス インバスケット テック用語 GitHub Windows エディタ 教養 令和時代 RESTful API 物理設計 会社規模300名以上 データモデリング サーバーサイドJava Webサーバー基礎 Webサーバー応用 Watson IBMWatson Learning Topics OS モバイル コンテスト トレーニング手法 アーキテクチャ 人材モデル インフラ CI/CD Infrastructure as a Code チーム開発 制度づくり Special_Intro AI市場分析 研修ロードマップ 仕事術 デジタルトランスフォーメーション 財務分析手法 情報整理 PowerPoint 新しい研修 オンライン研修 見どころ紹介 統計分析 ディープラーニング G検定 情報処理技術者試験 販売管理 C# テスト計画 Linuxサーバー WEBサーバ構築 http/2 Postfix イーサリアム プロジェクト・メンバ 正規化 パケット実験 作業分解 トラブル調査 ネットワーク設計 Windows server 2016 ネットワーク機器 DX 管理職 最新動向 ポストコロナ時代 IoTデバイス マイコンボード センサ サーバー仮想化 仮想ルータ WAN インターネットVPN 若手エンジニア ITプロジェクト 人事面談 DX人材育成 Java基礎 ZAP 脆弱性診断 NWサービス構築 イノベーション・マネジメント ネットワークセキュリティ ストレッチ Google Cloud Platform 不動産業界 テレワーク(WFH) ドリル GCP ( Google Cloud Platform ) システム業界 PMS テレワーク ビッグデータ NoSQL OWASP CentOS8 ネットワーク技術 データ分析 デザインシンキング 保険業界 会議リーダー システムエンジニア 段取り術 プロジェクト原論 文章書き換え術 ノーコード No Code MongoDB Redis Cassandra 運用管理 Windows10 仮想マシン リモートワーク 働き方 生産性 IPSec Office セキュリティマナー ソフトウェア・レビュー ライフハック 新しい働き方 エクササイズ ビジネスモデルキャンバス 状況認識 ストレス 必須コマンド Web 今日わかる きほん 状況把握 意思決定 心の健康 IT書籍 書籍紹介 営業マン 類推法 クラス プロセス指向 PdM 共用 ウェビナーレポート 地方創生 GraphQL CSS OWASP ZAP セキュリティマネジメント 問題解決 ソフトウェア 新技術 雑談力 テスト見積もり Scala Go Rust Relay Cloud AI Kaggle ITエンジニア フレッシャーズ 経営戦略 事業戦略 マインドフルネス 基本情報技術者試験 ニューノーマル プロジェクト会議 メソドロジ 講師インタビュー システム障害 販売管理システム VMware セキュリティ事例 ケーススタディ インターネット通信 ビジネスマン 品質向上 提案 ロジック図解術 バーチャルマシン 対策事例 アスリート 国の動向 アンチパターン リモートアクセス 脳ヨガ 自律神経 整え方 組み立て方 コミュニケーション術 リーダー 新人 知っておきたいこと 対人能力 洞察力 一文作成 サッカー業界 グループワーク マネジメント手法 IT業界 Octave セキュリティ管理 IT ネットワーク機器の特徴 ネットワーク機器の仕組み 基本のキ プレゼンテーションの組み立て方 伝え力 試験合格後 時短術 作成のコツ 導入事例 メンタルマネジメント メンタルヘルスケア DXプロジェクト プログラミング教育 プログラミング的思考 子供向けプログラミング データ定義言語 DDL モダンWebアプリケーション ドキュメント作成 Docker Compose Docker Hub AR VBAエキスパート試験 Azure メディア掲載 サーバーアーキテクチャ データ操作言語 DML NewSQL ソフトウェアセキュリティ 数学 VR アパレル業界 Kubernetes Power BI Android プロダクトオーナーシップ プロダクトオーナー 内製化 情報システム部門

Kaggle で学ぶ!機械学習 モデル 開発入門|研修コースに参加してみた


2021-09-01 更新

今回参加したコースは Kaggle で学ぶ!機械学習 モデル 開発入門 です。

先日レポートした「ノーコード( NoCode )で体験する AI 開発のキホン」のように、機械学習の環境やツールが整備されて、専門家でなくても簡単なモデルを作成できるようになってきました。

さらにもう少し学んで知識を深めたいとなったときに、解くべき問題や、その成果物に対する評価があると励みになりますよね。

そこで、 Kaggle という機械学習のコンペのサイトを使うと、問題やデータセットと評価、そして機械学習を実行する実行環境が一式用意されます。専門家から入門者まで、世界中からデータサイエンティストが集まる人気サイトです。

このコースでは、機械学習の概要の知識はわかっているものの、実際に自分でモデルを作成したことがない方を対象に、 Kaggle の使い方や、 Python による機械学習のコードの書き方などを学んで… ナント、 Kaggle デビューできました!!!

 

では、どのような内容だったのかレポートします!

コース情報

想定している受講者
  • AI の基礎知識があること(「ノーコードで体験する AI 開発のキホン」の受講を推奨)
  • Python によるプログラミングの基礎的な理解があること
受講目標
  • Notebook を使用した Python プログラミングの作業方法を理解する
  • Python を用いた機械学習モデルの開発ができる
  • Kaggle の基本的な使い方とコンペへの参加方法がわかる

講師紹介

「ノーコード( NoCode )で体験する AI 開発のキホン」につづき、 井上 研一 さんが登壇されました。

講師インタビュー 井上 研一 「 AI のハードルを下げて、 AI で何かを生み出す人を増やしたい!」

今日のコースのアジェンダを紹介いただき、実際に Kaggle のタイタニックというコンペに参加して、実際に作ったモデルを出してみましょう、とお話いただけました。

Kaggle デビュー … できるのでしょうか。ワクワクしますね。

データ分析の進め方

まずはモデルの開発の前段階、データ分析について解説いただきました。

  • モデルを作る前に、事前にデータの特徴を掴む = データ分析

では、どのようにデータ分析を進めるのでしょうか。

  1. ビジネス課題の理解 Business Understanding
    • As-Is (現状) と To-Be (将来のあるべき姿) のギャップが課題
    • データがあるからやるのではない
  2. データの理解と収集 Data Understanding
    • 必要なデータを仮説を立てて集める
  3. 扱いやすいデータに整形する (前処理) Data Preparation
    • 様々なデータを 1 つにまとめる
    • 雑多な非構造化データを構造化する
    • 外れ値や欠損値などを補完
  4. データ分析 Modeling
  5. アクション Evaluation & Deploy
    • ギャップが埋められたかどうかを Validate
    • ギャップが埋められなければ、やり直し

Kaggle とは

Google に買収されたことで一気に有名になった Kaggle について紹介いただきました。

  • 企業や研究者がデータと賞金とお題を設定したコンペを開催し、世界中のデータサイエンティストが参加
  • 実際にスコアが良かったデータサイエンティストが表彰され、賞金獲得ができる

よく記事でもトップランカーの Kaggler が在籍しているという企業 PR を見るようになりました。

AI道場「Kaggle」の衝撃、DeNAが人材採用の特別枠を設けた訳 | 日経クロステック(xTECH)

  • Kaggle のコンペの概要
    • 訓練データとテストデータが提供される
    • テストデータをモデルに入れて予測や分類をする → この結果で競う
    • Kaggle 内にも Python を動かせる環境がある

今日はその Kaggle のコンペの中でも「タイタニック」という、初心者向けのチュートリアルのようなコンペに参加します。ドキドキ。

NoteBook を使って Python の肩慣らし

ここからは実際、 Kaggle でアカウントを作成・ログインして、サイト上に用意された環境 ( Notebook ) で演習します。

まずはその Notebook で Python でプログラミングの肩慣らしのため、定番の FizzBuzz 問題に取り組んでみます。

  • FizzBuzz 問題とは
    • 1 ~ 100 までの数字で以下の条件で出力
      • 3 で割り切れれば「 Fizz! 」
      • 5 で割り切れれば「 Buzz! 」
      • 3 と 5 で割り切れれば「 Fizz Buzz! 」
      • 上記以外の場合は、そのまま数字

研修中は井上さんから Gist ( GitHub が開発したコードスニペットを共有できるサービス) を使って、事前に用意されたサンプルコードを共有いただいたので、スムーズに作業を進められました。

code井上さんに共有いただいたサンプルコード例
for i in range(1, 101):
    if i % 3 == 0 and i % 5 == 0:
        print('Fizz Buzz!')
    elif i % 3 == 0:
        print('Fizz!')
    elif i % 5 == 0:
        print('Buzz!')
    else:
        print(i)

コンペ「タイタニック」でデータ分析

では、実際に「タイタニック」に参加します!


タイタニックは、あのタイタニック号の乗客データを元に、生存者を予測するというコンペです。

画面でトレーニングデータとテストデータ、最後にコンペに Submission (提出) するデータを確かめた上で、井上さんから、統計の基本や質的データ・量的データを解説いただきました。

Pandas によるデータの可視化と前処理

Python のライブラリの Pandas を使って、トレーニングデータを分析します。

info以降は井上さんが用意されたサンプルコードをもとに演習を進めたのですが、ここではコードを割愛して、手順だけを紹介します。実際のコードで動かしてみたいという方はぜひコースにご参加くださいませ!!
  1. データセットを読み込む
  2. カラム情報などを取得
  3. 列名からデータを全件取得
  4. index を使ってデータを取得
  5. グルーピングして統計的な処理をやってみる
    • 等級ごとの運賃の平均を出してみる
  6. 基本統計量を出す
  7. 欠損値の探索と削除
  8. 欠損値を補完する

井上さんのサンプルコードをコピペしながら進められるため、データの見方や出力されたデータの分析の解説に集中できます。

matplotlib と seaborn で可視化

つづいて、データをグラフなどで可視化してみます。可視化するとデータの全貌が直感的にわかりますね。

  1. matplotlib と seaborn を import
  2. チケットと生存の関係を見てみる
  3. 年齢と生存を見てみよう
出力されたグラフの例。グラフはチケットと生存の関係

データ分析していると、

  • 1 等に生存が多い
    • 性別でも特徴がある
  • 子どもは生存している確率が高い

などがわかってきました!

このあと、

  1. seaborn を使ってカラムの相関を可視化
  2. scikit-learn を使ってデータ分割
  3. モデルを評価
  4. 精度改善

こういった取り組みをして、モデルが完成しました!!

Kaggle デビュー

モデルができたので、いよいよ Kaggle で提出してみます! (ドキドキ)

  1. テストデータをモデルに入れる
  2. デフォルトで用意されいた提出用データを上書き
  3. 画面からその提出用データを提出する

この結果、画面でスコアと順位が表示されました!!


もう順位が省略されてしまって、何位なのかわからないぐらい(笑)ですが、 Kaggle デビューできました!!!

 

デビューできたところで、このコースは修了しました。

まとめ

Kaggle の初心者用コンペを使って、データ分析からモデル開発までの一通りのステップを Python のライブラリを駆使して体験できました。

コース参加前はハードル高めだと思っていましたが、井上さんのサンプルコードやスムーズな手順で楽しくモデル開発ができました。

また、「ノーコード( NoCode )で体験する AI 開発のキホン」を受講していたので、 GUI で操作したステップと今回 Python のライブラリで行ったステップが、ほぼ同じだったことに気づき、モデル開発の流れを追体験できました! そして、 Kaggle デビューもできました!! いえい、いえい!!

AI に興味をもって、 Python での機械学習を持っている方にはとてもオススメの入門コースです! そして Kaggle デビューしましょう!!

 


SEカレッジについて

label SEカレッジを詳しく知りたいという方はこちらから !!

SEcollege logo
SEカレッジ
IT専門の定額制研修 月額28,000円 ~/ 1社 で IT研修 制度を導入できます。
年間 670 コースをほぼ毎日開催中!!

午前免除 FAQ

タグ一覧