AIエンジニア学習ロードマップ
AI知識ゼロから、機械学習エンジニアとして実務にチャレンジできるレベルまで到達するための段階的な学習体系。eureka-ai が Qiita でまとめたロードマップに基づく。
全体フェーズ
フェーズ0: 概観(AI・機械学習エンジニアとは何か)
↓
フェーズ1: AI基礎(Python・データサイエンス・機械学習・深層学習)
↓
フェーズ2: ソフトウェア開発基礎(Git・クラウド・Docker・Linux・DB)
↓
フェーズ3: 論文リサーチ基礎(arXiv・落合フォーマット)
↓
(フェーズ4: おまけ / 発展学習)
フェーズ0: 概観
「人工知能とは何か」「AIエンジニアとは何か」という全体像を先に理解する。
- 松尾豊「人工知能は人間を超えるか」 — AI史の中で深層学習が画期的だった理由を体系的に解説
- 機械学習の概要記事 — AI・機械学習・深層学習の違いと注目の背景
- 機械学習の「社会実装」の実例 — ほとんどのMLプロジェクトが社会実装されずに終わる現実と突破事例
- 機械学習エンジニアのキャリアパス — PythonやPyTorchだけでは不十分、目的意識の重要性
フェーズ1: AI基礎
1-1: マインドセット
| 習慣 | 概要 |
|---|---|
| ググり力 | 同じ情報を調べても人によって差が出る。検索精度の習得が重要 |
| RTFM | Read The F**king Manual。公式ドキュメントを読む姿勢 |
| フィードバックサイクル | 読解力・目的意識・早期のフィードバック獲得が「強いエンジニア」の特徴 |
1-2: Python
- 公式チュートリアル(日本語)
- Pythonプログラミング入門(東京大学、PDF・Google Colab付き、練習問題あり)
- Progate Python講座 — 初学者向けレッスン形式
- 便利なPythonのヒント100選 — 実用的なコーディング感覚を養う
1-3: データサイエンス基礎
包括的学習の推奨コース:
- GCI(東大グローバル消費インテリジェンス寄附講座) — 東大松尾研が半期に1回開講。学生無料。無料講座のトップクラスの質
- データサイエンス100本ノック(構造化データ加工編) — 構造化データの加工を一通り習得できる総集編
個別ライブラリ:
| ライブラリ | 役割 | 学習リソース |
|---|---|---|
| NumPy | 多次元配列・数値計算 | 公式ドキュメント・NumPy 100本ノック |
| Pandas | CSVデータ読み込み・前処理・結合 | 公式ドキュメント・Pandas 100本ノック |
| Matplotlib | データ可視化 | 公式ドキュメント(Google Colab推奨) |
1-4: 機械学習(非Deep系)
目標: scikit-learn・LightGBM・XGBoostを使ってモデル構築・学習・推論ができること。
| リソース | 内容 |
|---|---|
| Pythonではじめる機械学習(O’Reilly) | scikit-learnで特徴量エンジニアリング・モデル評価を学ぶ |
| パターン認識と機械学習(PRML、上下) | 定番書。数学的理解が深まる(微積・線形代数・統計の前知識が必要) |
| scikit-learn公式ドキュメント | 訓練・評価のフローを体験 |
| LightGBM公式ドキュメント | 勾配ブースティング。精度高い・過学習しやすい |
| XGBoost公式ドキュメント | アンサンブル学習。スパースデータ・大規模処理向き |
1-5: 深層学習
包括的学習:
- ゼロから作るDeep Learning ①② — 外部ライブラリなしのゼロ実装。誤差逆伝播・CNN・NLP編まで
- 東大松尾研「DL基礎」 — 毎年春開講。学生無料。ニューラルネット〜最先端AI
フレームワーク:
- PyTorch — ビジネス現場での主流。Google Colab対応
- Chainer — 国産フレームワーク。Google Colab対応
分野別100本ノック:
| 分野 | コンテンツ |
|---|---|
| 画像処理 | 画像処理100本ノック(英語版) |
| 音声処理 | 音声情報処理n本ノック |
| 自然言語処理 | 言語処理100本ノック(正規表現〜ニュース分類タスクまで) |
| 強化学習 | Q学習・深層強化学習・アルゴリズムマップ |
| LLM / 生成AI | RAGシステム概要・ChatGPT活用実例 |
実験管理・MLOpsツール:
- Optuna — ハイパーパラメータ自動最適化(Preferred Networks製)
- Weights & Biases(WandB) — 実験管理・可視化プラットフォーム
- DVC — データ・モデルのバージョン管理(Gitと連携)
フェーズ2: ソフトウェア開発基礎
AIエンジニアとして活動するには、AI技術の習得だけでは不十分。ほぼ100%ソフトウェアエンジニアスキルが必要。
チーム開発スキル
| スキル | 重要性 | 推奨リソース |
|---|---|---|
| Git・GitHub | 必須 | サル先生のGit入門 |
| クラウド(AWS・GCP) | 高い | 東大工学部AWSクラウド入門、GCP入門編 |
| Docker | 高い | 公式ドキュメント日本語版、図解チュートリアル |
| VirtualBox / 仮想マシン | あると良い | LinuxをVirtualBoxでインストールする手順 |
個人・チーム共通スキル
| スキル | 重要性 | 推奨リソース |
|---|---|---|
| VS Code / PyCharm / Cursor | 必須 | 各公式ドキュメント・拡張機能記事 |
| Linux / シェルスクリプト | 高い | Linuxコマンド一覧・シェル入門 |
| SSH | 高い | 公開鍵認証の基礎と接続手順 |
| SQL / MySQL | あると良い | やりながら学べるSQL入門 |
フェーズ3: 論文リサーチ基礎
AIインターンでは「テーマを絞って論文調査 → モデルの再現実装」を求められることがある。
論文検索ツール
| ツール | 特徴 |
|---|---|
| Google Scholar | 論文検索の王道 |
| arXiv | 査読前論文(CS・AI・数学・物理系多数) |
| arXivTimes | 機械学習論文の調査・共有リポジトリ |
| Papers with Code | 実装コード付き論文・SOTA検索 |
| CiNii | 日本語論文の網羅的検索 |
論文の読み方フォーマット
- 落合フォーマット — 6項目(どんなもの?・先行研究との差?・技術的要点?・有効性の検証?・議論は?・次に読む論文?)で高速に読む
- 矢谷流(東大矢谷研) — 東大電子情報学科・電気電子工学科で参考にされている読み方
- 松尾豊氏の論文の書き方 — 書き手の視点を知ることで読み方も向上
フェーズ4: 発展・補強
- 海外大学講義: MIT(英語)、CS50 for Japanese(Harvard・和訳)
- 学習ロードマップ: 東大松尾研「人工知能・深層学習を学ぶためのロードマップ」
- 学生・社会人別、10時間コース・200時間コースの4パターン
- コンペ: Kaggle(世界規模・英語)、SIGNATE(日本語・入門向け)、AtCoder(競技プログラミング)
- 基礎数学: 高校数学の美しい物語(微積・極限・線形代数)、AIプログラミングのための数学がわかる本
- 42Tokyo: フランス発エンジニア養成機関。C言語中心、入試あり、無料・夜間も利用可能
学習の原則
「全てのコンテンツをやり切る必要はない。重要なのは『実務に必要なのはAIの基礎知識だけではない』と認識すること。その上で自分に必要な部分を集中的に学ぶ。」 — 原文より
- 量をこなす: プログラミングは手を動かして慣れることが最重要
- 並行学習: AI技術とソフトウェア開発基礎はなるべく同時並行で習得
- 公式ドキュメントを見る: RTFM精神
- 英語情報に慣れる: 最先端情報は英語が多い
- コンペで実力を測る: 学習成果の確認と実践力の底上げ
関連概念
- 機械学習ツールチェーン(ML Engineering) — scikit-learn・LightGBM・XGBoost・Optuna・WandB・DVCの体系
- 深層学習フレームワーク(PyTorch・Chainer) — 深層学習の実装環境
- 論文リサーチの基礎 — arXiv・Papers with Code・落合フォーマット
- AIエージェント開発入門プロセス — AIエンジニアとしての実装フェーズの具体例
関連エンティティ
- eureka-ai — 本ロードマップの著者(GEEK OFFER)
- 松尾研(東京大学) — GCI・DL基礎・学習ロードマップを公開。日本最大のAI研究拠点の一つ
- 松尾豊 — 東大松尾研教授、「人工知能は人間を超えるか」著者
- Preferred Networks — Optuna開発元、AI系で著名なスタートアップ