AIエージェント開発入門プロセス

AIエージェント開発を初めて担当する人・チームが、ゼロから本番稼働まで進めるための5ステップフレームワーク。Moriya（IVRy AIエンジニア）が実プロダクト開発経験を基に整理した。

5ステップ

Step 1: 現状のプロセスを言語化
    ↓
Step 2: AIの必要性と任せる範囲を定義
    ↓
Step 3: 評価基準（ゴール）を設定
    ↓
Step 4: タスクを細分化して実装
    ↓
Step 5: 評価基準に基づいて改善サイクルを回す

Step 1: 現状プロセスの言語化

問い: 「今の人間は何をしているのか？」

LLMは「無から新しいことを成し遂げる」ことができない。したがって「何をやらせたいか」の要件定義が出発点。

作業	内容
業務フローの棚卸し	インプット・タスク・アウトプットを書き出す
人間の行動観察	思考・判断・アクションを言語化する
非効率箇所の特定	時間・ミス・ルーティン化を見極める

Step 2: AIの必要性と任せる範囲

AIが適するタスク vs 不要なタスク

AIを使うべき: 不確実性を伴うタスク（判断・推論・自然言語理解）
AIは不要: 確実性が高く、条件分岐がシンプルな処理（通常のプログラムで十分）

任せる範囲の2軸判断

軸	内容
タスクの明確さ	AIが指示なしで安全に実行できるか
失敗時の影響度	誤作動した場合のビジネスリスク

重要度が高いタスクをAIに「丸投げ」すると大事故につながる。影響度に応じて人間の確認ステップを設ける。

Step 3: 評価基準の設計

「AI開発は評価こそが全て」

実装前に「正しく動いている状態」を定義する。評価基準がなければ改善の方向が決まらない。

オフライン評価（リリース前テスト）

技術的な実現可能性・基礎性能を測る。

テストデータセットに対する正答率（例: 80%以上）
システムの平均応答時間（例: 5秒以内）

オンライン評価（実運用モニタリング）

実際のビジネスインパクト・ユーザー体験を測る。

実問い合わせ解決率（例: 70%以上）
エスカレーション率の変化
ユーザー満足度スコア（例: 5点満点中4.0以上）
トーン＆マナーの適切さ（定性評価）

「誰にとっての成功なのか？」を明確にした上でゴールを定義すること。

Step 4: タスク細分化と実装

タスク細分化の原則

1つの曖昧な仕事より細かいステップに分割した方が精度が上がる
「自分の仕事を他の人にお願いするとしたら、どういう手順書を書けばミスなく実行できるか」という視点で整理する

実装フレームワーク

フレームワーク	提供元	リンク
Google ADK	Google	https://google.github.io/adk-docs/
OpenAI Agent SDK	OpenAI	https://openai.github.io/openai-agents-python/ja/
Claude Agent SDK	Anthropic	https://platform.claude.com/docs/ja/agent-sdk/overview

Step 5: 評価・改善サイクル

デバッグのコツ

Step 4で作った最小粒度のタスクが正常動作しているかを確認することが問題切り分けの鍵。サブタスクを一つひとつ検証することで、エラーの発生箇所を特定できる。

改善サイクル

評価 → 問題特定 → タスク分割の見直し → プロンプト修正 → 再評価

タスク細分化とClaude Code サブエージェントの関係

「タスクを細分化してそれぞれをAIに委託する」という考え方は、Claude Code のサブエージェントアーキテクチャとも共通する。

観点	AIエージェント開発（本フレームワーク）	Claude Code サブエージェント
分割の目的	LLMの精度向上	コンテキスト分離・並列処理
単位	業務ステップ	コーディングタスク
評価	ビジネス指標（解決率など）	タスク完了の正否

エージェント設計パターン（ReAct / Reflexion）

DeNA勉強会（Tomoki Yoshida）では本フレームワークと連携する形でエージェント設計パターンも解説:

パターン	概要
ReAct	Reasoning + Acting。思考→行動→観察のサイクルでエージェントが動作する
Reflexion	自己内省（自分のアウトプットを評価して改善指示を生成する）によるループ改善

どちらも「Step 5: 評価・改善サイクル」の自動化として位置付けられる。

MyVault

Explorer

AIエージェント開発入門プロセス

AIエージェント開発入門プロセス

5ステップ

Step 1: 現状プロセスの言語化

Step 2: AIの必要性と任せる範囲

AIが適するタスク vs 不要なタスク

任せる範囲の2軸判断

Step 3: 評価基準の設計

オフライン評価（リリース前テスト）

オンライン評価（実運用モニタリング）

Step 4: タスク細分化と実装

タスク細分化の原則

実装フレームワーク

Step 5: 評価・改善サイクル

デバッグのコツ

改善サイクル

タスク細分化とClaude Code サブエージェントの関係

エージェント設計パターン（ReAct / Reflexion）

関連概念

関連エンティティ

Graph View

目次

バックリンク