GPT-5.5

OpenAI が2026年4月23日にリリースした最新フラッグシップLLM。コードネームは「Spud」。OpenAIが「最も複雑な業務向け」と位置づけており、OpenAI Codex の推奨モデルとして搭載されている。

主要スペック

ベンチマーク	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0（エージェント自動化）	82.7%（歴代1位）	69.4%	—
GPQA Diamond（大学院レベル知識）	93.6%	94.2%	94.3%
SWE-Bench Pro（ソフトウェアエンジニアリング）	58.6%	64.3%	—

→ エージェント自動化（Terminal-Bench 82.7%歴代1位）がCodexとの組み合わせでの最大の競争優位。全カテゴリ圧勝するモデルは存在しないが、Codex×GPT-5.5は自動化用途で現状最強の組み合わせとされている。

比較：GPT-5.4は入力 $2.50 ・出力$ 15.00（GPT-5.5の半額）。コスト最適化の観点では「普段はGPT-5.4、複雑な処理だけGPT-5.5」が推奨される。

コストは推論努力に比例するため、全タスクを xhigh で実行するのは非効率。