LLMプロダクト開発
LLM(大規模言語モデル)をコアとしたプロダクトを企画・実装・運用する一連の活動。技術選択(モデル・RAG・エージェント・ファインチューニング)に加え、評価設計・コンテキスト設計・チューニングの継続サイクルが求められる。
全体像
ユーザー要件の定義
↓
LLMの基礎選択(API活用 vs ファインチューニング vs 強化学習)
↓
コンテキストエンジニアリング(RAG・Tool Calling・プロファイル注入)
↓
エージェント設計(ReAct / Reflexion / マルチエージェント)
↓
評価設計(オフライン評価 + オンライン評価)
↓
継続的チューニング・観測(LangSmith等)
主要技術スタック
LLMの基本機能
| 機能 | 概要 |
|---|
| Next Token Prediction | テキスト生成の基本原理 |
| Instruction Tuning | 指示に従うための事前学習 |
| Reasoning | 推論・思考連鎖(CoT)の活用 |
| 構造化出力 | JSON等の形式でLLMに出力させる |
データ活用・パーソナライズ
エージェント設計
| パターン | 概要 |
|---|
| ReAct | Reasoning + Acting。思考→行動→観察のループ |
| Reflexion | 自己内省(自分のアウトプットを自己評価して改善)を持つエージェント |
| マルチエージェント | 複数のLLMを役割分担して組み合わせる |
| Deep Research | 複数ステップの検索・要約・再検索を組み合わせた調査エージェント |
実装・観測ツール
| ツール | 用途 |
|---|
| n8n | ノーコード/ローコードのLLMワークフロー自動化 |
| LangSmith | LLMアプリケーションの観測・デバッグ・評価 |
| Embedding API | テキストのベクトル変換。RAG検索の基盤 |
プロダクト開発の原則(DeNA勉強会より)
- 評価基準を先に設計する: 実装前に「正しく動いている状態」を定義(オフライン評価 + オンライン評価)
- コンテキストエンジニアリングが鍵: モデル選択よりデータの渡し方の方がプロダクト品質に直結
- プロンプトは全体を見直す: 追記し続けると整合性が崩れる。定期的な棚卸しが必要
- 複数LLMの組み合わせで複雑なタスクに対応する設計思想を持つ
- エンジニアとPdMの共通理解が新規AIプロダクト開発の成功要件
評価設計の2軸
AIエージェント開発入門プロセスと共通する評価フレームワーク:
| 評価種別 | 軸 | 例 |
|---|
| オフライン評価 | 技術性能 | 正答率・応答時間・エラー率 |
| オンライン評価 | ビジネスインパクト | 解決率・ユーザー満足度・エスカレーション率 |
関連概念
関連エンティティ
- Tomoki Yoshida — DeNA社内LLM勉強会でLLMプロダクト開発の全体像を体系化・公開
- Moriya — IVRyでのLLMプロダクト開発の評価設計・タスク細分化を実践
- DeNA — 新規AIサービス開発を推進する組織。勉強会資料を全公開