AIエージェント開発入門プロセス
AIエージェント開発を初めて担当する人・チームが、ゼロから本番稼働まで進めるための5ステップフレームワーク。Moriya(IVRy AIエンジニア)が実プロダクト開発経験を基に整理した。
5ステップ
Step 1: 現状のプロセスを言語化
↓
Step 2: AIの必要性と任せる範囲を定義
↓
Step 3: 評価基準(ゴール)を設定
↓
Step 4: タスクを細分化して実装
↓
Step 5: 評価基準に基づいて改善サイクルを回す
Step 1: 現状プロセスの言語化
問い: 「今の人間は何をしているのか?」
LLMは「無から新しいことを成し遂げる」ことができない。したがって「何をやらせたいか」の要件定義が出発点。
| 作業 | 内容 |
|---|---|
| 業務フローの棚卸し | インプット・タスク・アウトプットを書き出す |
| 人間の行動観察 | 思考・判断・アクションを言語化する |
| 非効率箇所の特定 | 時間・ミス・ルーティン化を見極める |
Step 2: AIの必要性と任せる範囲
AIが適するタスク vs 不要なタスク
- AIを使うべき: 不確実性を伴うタスク(判断・推論・自然言語理解)
- AIは不要: 確実性が高く、条件分岐がシンプルな処理(通常のプログラムで十分)
任せる範囲の2軸判断
| 軸 | 内容 |
|---|---|
| タスクの明確さ | AIが指示なしで安全に実行できるか |
| 失敗時の影響度 | 誤作動した場合のビジネスリスク |
重要度が高いタスクをAIに「丸投げ」すると大事故につながる。影響度に応じて人間の確認ステップを設ける。
Step 3: 評価基準の設計
「AI開発は評価こそが全て」
実装前に「正しく動いている状態」を定義する。評価基準がなければ改善の方向が決まらない。
オフライン評価(リリース前テスト)
技術的な実現可能性・基礎性能を測る。
- テストデータセットに対する正答率(例: 80%以上)
- システムの平均応答時間(例: 5秒以内)
オンライン評価(実運用モニタリング)
実際のビジネスインパクト・ユーザー体験を測る。
- 実問い合わせ解決率(例: 70%以上)
- エスカレーション率の変化
- ユーザー満足度スコア(例: 5点満点中4.0以上)
- トーン&マナーの適切さ(定性評価)
「誰にとっての成功なのか?」を明確にした上でゴールを定義すること。
Step 4: タスク細分化と実装
タスク細分化の原則
- 1つの曖昧な仕事より細かいステップに分割した方が精度が上がる
- 「自分の仕事を他の人にお願いするとしたら、どういう手順書を書けばミスなく実行できるか」という視点で整理する
実装フレームワーク
| フレームワーク | 提供元 | リンク |
|---|---|---|
| Google ADK | https://google.github.io/adk-docs/ | |
| OpenAI Agent SDK | OpenAI | https://openai.github.io/openai-agents-python/ja/ |
| Claude Agent SDK | Anthropic | https://platform.claude.com/docs/ja/agent-sdk/overview |
Step 5: 評価・改善サイクル
デバッグのコツ
Step 4で作った最小粒度のタスクが正常動作しているかを確認することが問題切り分けの鍵。サブタスクを一つひとつ検証することで、エラーの発生箇所を特定できる。
改善サイクル
評価 → 問題特定 → タスク分割の見直し → プロンプト修正 → 再評価
タスク細分化とClaude Code サブエージェントの関係
「タスクを細分化してそれぞれをAIに委託する」という考え方は、Claude Code のサブエージェントアーキテクチャとも共通する。
| 観点 | AIエージェント開発(本フレームワーク) | Claude Code サブエージェント |
|---|---|---|
| 分割の目的 | LLMの精度向上 | コンテキスト分離・並列処理 |
| 単位 | 業務ステップ | コーディングタスク |
| 評価 | ビジネス指標(解決率など) | タスク完了の正否 |
エージェント設計パターン(ReAct / Reflexion)
DeNA勉強会(Tomoki Yoshida)では本フレームワークと連携する形でエージェント設計パターンも解説:
| パターン | 概要 |
|---|---|
| ReAct | Reasoning + Acting。思考→行動→観察のサイクルでエージェントが動作する |
| Reflexion | 自己内省(自分のアウトプットを評価して改善指示を生成する)によるループ改善 |
どちらも「Step 5: 評価・改善サイクル」の自動化として位置付けられる。
関連概念
- Claude Code サブエージェント — エージェントのタスク分割・並列化の実装パターン
- AI駆動開発ベストプラクティス — 人間とAIの役割分担・認知負荷削減の体系
- 業務フロー設計 — Step 1「現状プロセスの言語化」と重なる手法
- LLMプロダクト開発 — エージェント設計を含むLLMプロダクト全体の概念ページ
関連エンティティ
- Moriya — 本フレームワークの提唱者(IVRy)
- Tomoki Yoshida — ReAct/Reflexionエージェントをハンズオンで解説(DeNA勉強会)