LLMプロダクト開発

LLM（大規模言語モデル）をコアとしたプロダクトを企画・実装・運用する一連の活動。技術選択（モデル・RAG・エージェント・ファインチューニング）に加え、評価設計・コンテキスト設計・チューニングの継続サイクルが求められる。

全体像

ユーザー要件の定義
    ↓
LLMの基礎選択（API活用 vs ファインチューニング vs 強化学習）
    ↓
コンテキストエンジニアリング（RAG・Tool Calling・プロファイル注入）
    ↓
エージェント設計（ReAct / Reflexion / マルチエージェント）
    ↓
評価設計（オフライン評価 + オンライン評価）
    ↓
継続的チューニング・観測（LangSmith等）

主要技術スタック

LLMの基本機能

機能	概要
Next Token Prediction	テキスト生成の基本原理
Instruction Tuning	指示に従うための事前学習
Reasoning	推論・思考連鎖（CoT）の活用
構造化出力	JSON等の形式でLLMに出力させる

データ活用・パーソナライズ

手法	用途
RAG（検索拡張生成）	外部知識の動的注入。コストが低く更新容易
コンテキストエンジニアリング	プロンプトへのデータ挿入の体系的設計
ファインチューニング	モデルの振る舞い・スタイルを変える
強化学習（RLHF等）	品質・方向性の全体チューニング

エージェント設計

パターン	概要
ReAct	Reasoning + Acting。思考→行動→観察のループ
Reflexion	自己内省（自分のアウトプットを自己評価して改善）を持つエージェント
マルチエージェント	複数のLLMを役割分担して組み合わせる
Deep Research	複数ステップの検索・要約・再検索を組み合わせた調査エージェント

実装・観測ツール

ツール	用途
n8n	ノーコード/ローコードのLLMワークフロー自動化
LangSmith	LLMアプリケーションの観測・デバッグ・評価
Embedding API	テキストのベクトル変換。RAG検索の基盤

プロダクト開発の原則（DeNA勉強会より）

評価基準を先に設計する: 実装前に「正しく動いている状態」を定義（オフライン評価 + オンライン評価）
コンテキストエンジニアリングが鍵: モデル選択よりデータの渡し方の方がプロダクト品質に直結
プロンプトは全体を見直す: 追記し続けると整合性が崩れる。定期的な棚卸しが必要
複数LLMの組み合わせで複雑なタスクに対応する設計思想を持つ
エンジニアとPdMの共通理解が新規AIプロダクト開発の成功要件

評価設計の2軸

AIエージェント開発入門プロセスと共通する評価フレームワーク:

評価種別	軸	例
オフライン評価	技術性能	正答率・応答時間・エラー率
オンライン評価	ビジネスインパクト	解決率・ユーザー満足度・エスカレーション率

tags	concept, llm, product-development, ai-product, rag, agent, fine-tuning, context-engineering
aliases	LLM product development, AIプロダクト開発, LLMを活用したプロダクト作り

MyVault

Explorer

LLMプロダクト開発

LLMプロダクト開発

全体像

主要技術スタック

LLMの基本機能

データ活用・パーソナライズ

エージェント設計

実装・観測ツール

プロダクト開発の原則（DeNA勉強会より）

評価設計の2軸

関連概念

関連エンティティ

Graph View

目次

バックリンク