LLMプロダクト開発

LLM(大規模言語モデル)をコアとしたプロダクトを企画・実装・運用する一連の活動。技術選択(モデル・RAG・エージェント・ファインチューニング)に加え、評価設計・コンテキスト設計・チューニングの継続サイクルが求められる。

全体像

ユーザー要件の定義
    ↓
LLMの基礎選択(API活用 vs ファインチューニング vs 強化学習)
    ↓
コンテキストエンジニアリング(RAG・Tool Calling・プロファイル注入)
    ↓
エージェント設計(ReAct / Reflexion / マルチエージェント)
    ↓
評価設計(オフライン評価 + オンライン評価)
    ↓
継続的チューニング・観測(LangSmith等)

主要技術スタック

LLMの基本機能

機能概要
Next Token Predictionテキスト生成の基本原理
Instruction Tuning指示に従うための事前学習
Reasoning推論・思考連鎖(CoT)の活用
構造化出力JSON等の形式でLLMに出力させる

データ活用・パーソナライズ

手法用途
RAG(検索拡張生成)外部知識の動的注入。コストが低く更新容易
コンテキストエンジニアリングプロンプトへのデータ挿入の体系的設計
ファインチューニングモデルの振る舞い・スタイルを変える
強化学習(RLHF等)品質・方向性の全体チューニング

エージェント設計

パターン概要
ReActReasoning + Acting。思考→行動→観察のループ
Reflexion自己内省(自分のアウトプットを自己評価して改善)を持つエージェント
マルチエージェント複数のLLMを役割分担して組み合わせる
Deep Research複数ステップの検索・要約・再検索を組み合わせた調査エージェント

実装・観測ツール

ツール用途
n8nノーコード/ローコードのLLMワークフロー自動化
LangSmithLLMアプリケーションの観測・デバッグ・評価
Embedding APIテキストのベクトル変換。RAG検索の基盤

プロダクト開発の原則(DeNA勉強会より)

  1. 評価基準を先に設計する: 実装前に「正しく動いている状態」を定義(オフライン評価 + オンライン評価)
  2. コンテキストエンジニアリングが鍵: モデル選択よりデータの渡し方の方がプロダクト品質に直結
  3. プロンプトは全体を見直す: 追記し続けると整合性が崩れる。定期的な棚卸しが必要
  4. 複数LLMの組み合わせで複雑なタスクに対応する設計思想を持つ
  5. エンジニアとPdMの共通理解が新規AIプロダクト開発の成功要件

評価設計の2軸

AIエージェント開発入門プロセスと共通する評価フレームワーク:

評価種別
オフライン評価技術性能正答率・応答時間・エラー率
オンライン評価ビジネスインパクト解決率・ユーザー満足度・エスカレーション率

関連概念

関連エンティティ

  • Tomoki Yoshida — DeNA社内LLM勉強会でLLMプロダクト開発の全体像を体系化・公開
  • Moriya — IVRyでのLLMプロダクト開発の評価設計・タスク細分化を実践
  • DeNA — 新規AIサービス開発を推進する組織。勉強会資料を全公開