Terminal-Bench 2.0におけるGemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6

重要な数字: 68.5%

Google DeepMindのGemini 3.1 Proモデルカードでは、Terminus-2ハーネスを用いた Terminal-Bench 2.0でGemini 3.1 Proは68.5% とされています。同じ表では、同一ハーネス条件でClaude Opus 4.6が 65.4%、GPT-5.3-Codexが 64.7%、GPT-5.2が 54.0% です（Google DeepMind）。

これは、現時点で公開されている資料の中で最も明快な同条件比較の行です。つまり、報告されている同じTerminus-2セットアップでこれらのモデルを実行すると、Gemini 3.1 Proがリードし、Claude Opus 4.6が僅差で続き、GPT-5.3-Codexもほぼ同じ帯域にいて、GPT-5.2は大きく後れを取る、ということです。

ただし、ここには落とし穴があります。Terminal-Benchは単なるモデルのベンチマークではありません。モデル＋エージェント＋ハーネス のベンチマークです。

Epoch AIのTerminal-Bench 2.0ページでは、このベンチマークを、エージェントが実際のターミナル内で操作する必要があるタスクとして説明しています。ファイルシステムを理解し、インストール済みプログラムを使い、実行中プロセスについて推論し、すべてのコマンドを指示されなくてもタスクを完了する必要があります。また、エージェントが性能を大きく左右し得るため、スコアはモデルとエージェントの組み合わせとして報告されるとも述べています（Epoch AI）。この一文だけで、あらゆるリーダーボードの読み方は変わるはずです。

クリーム色の背景に、Terminal-Bench 2.0 Terminus-2スコアを比較する横棒グラフ: Gemini 3.1 Pro 68.5、Claude Opu

開発者が実際に使うべきベンチマーク表

一次情報で確認できた数値に限定すると、有用な切り口は次のとおりです。

モデル	Terminal-Bench 2.0スコア	ハーネス / 出典コンテキスト	関連する場合のAPI価格
Gemini 3.1 Pro	68.5%	GoogleモデルカードのTerminus-2ハーネス	プロンプト≤200kでは入力/出力100万トークンあたり$2/$12、200k超では$4/$18（Google AI）
Claude Opus 4.6	65.4%	GoogleモデルカードのTerminus-2ハーネス。Googleの方法論注記による公開リーダーボード	入力/出力100万トークンあたり$5/$25（Anthropic）
GPT-5.3-Codex	64.7%	GoogleモデルカードのTerminus-2ハーネス	OpenAIのプロバイダー実行ではCodex CLIを使って77.3%と報告。同じハーネスではない（OpenAI）
GPT-5.2	54.0%	GoogleモデルカードのTerminus-2ハーネス	入力/出力100万トークンあたり$1.75/$14（OpenAI）

Terminus-2における順位は明快です。Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2。

より大きなエンジニアリング上のポイントは、もう少し厄介です。Google自身の方法論PDFでは、Geminiのスコアは自己計算であり、非Geminiモデルの数値は特記がない限り一般にプロバイダー報告値だとされています。Terminal-Bench 2.0については、Gemini 3.1 Proは自己計算、他モデルは公開リーダーボード由来であり、結果はデフォルトのTerminus-2ハーネスと、該当する場合にはその他の最良の自己申告ハーネスの両方で報告されると述べています（Google DeepMind methodology PDF）。

したがって、公平な読み方は「Geminiが全員を圧倒している」ではありません。Geminiは共通のTerminus-2比較でClaudeに3.1ポイント、GPT-5.3-Codexに3.8ポイント差をつけてリードしている。GPT-5.2はこのセットアップでは明確に遅れている。ということです。

GPT-5.3-Codexに2つの異なる見え方がある理由

最も分かりにくい行はGPT-5.3-Codexです。

Googleのモデルカードでは、Terminus-2ハーネスで 64.7% とされています。その1行下で、同じカードは「その他の最良の自己申告ハーネス」の数値を掲載しており、GPT-5.2は Codex使用で62.2%、GPT-5.3-Codexは Codex使用で77.3% です（Google DeepMind）。OpenAI自身のGPT-5.3-Codex発表でも、xhigh推論努力を用いた Terminal-Bench 2.0で77.3% が報告されており、このモデルをCodex向けのコーディングエージェントモデルとして明確に位置づけています（OpenAI）。

どちらも真実であり得ます。

CLIコーディングエージェントは、ステートレスなチャット補完ではありません。ハーネスは、ファイルをどう公開するか、コマンドをどう実行するか、パッチをどう適用するか、状態をどう要約するか、モデルが誤った経路からどれだけ頻繁に回復できるか、場合によっては推論努力をどう選択するかを決めます。Codex CLIを使うなら、OpenAIの77.3%という数値は関連があります。同じサードパーティ製エージェントハーネス内でモデルを比較するなら、64.7%のTerminus-2の数値のほうがよりクリーンな比較です。

この区別は、実際の利用にそのまま対応します。

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

自分たちのCLIエージェントを構築しているチームなら、プロバイダーの最良ハーネススコアをスプレッドシートにコピーして、それをモデル品質だと呼ぶべきではありません。それは システム品質 として扱うべきです。つまり、モデル、ツールループ、メモリ、リトライポリシー、パッチ機構、サンドボックス、プロンプト契約の総体です。

「開発者タスク」がエージェントハーネスに入り、モデル、ターミナルツール、ファイルシステム状態に分岐することを示すフロー図

Terminal-Bench 2.0がSWE-Benchよりうまく測るもの

SWE-Benchは今でも有用ですが、Terminal-Benchは別の失敗モードを捉えます。モデルはもっともらしいパッチを生成できても、シェルの中で作業するのが下手なことがあります。

Terminal-Benchのタスクには、QEMU内でLinuxカーネルをビルドする、Git Webサーバーを設定する、提供されたシークレットに対する7zハッシュを解読する、OpenSSL証明書を生成する、データファイルを整形し直す、といったものが含まれます。Terminal-Benchのサイトでは、バージョン2.0を、ソフトウェアエンジニアリング、機械学習、セキュリティ、データサイエンスなどにまたがる 89個の高品質タスク と説明しています（Terminal-Bench）。

これが重要なのは、CLIエージェントが退屈で高コストな形で失敗するからです。

ファイルシステム内で自分がどこにいるかを忘れる。
コマンドを実行してstderrを無視し、間違ったファイルにパッチを当てる。
可視テストは通すが、隠れた不変条件を見落とす。
計画を立てる代わりに探索でトークンを浪費する。
1回のインストール失敗や1回の不安定なテストで詰まる。

これらのタスクにおいて、Gemini 3.1 ProのTerminus-2スコア68.5%は印象的です。単なるコード合成ではなく、強いコマンドループ挙動を示唆しているからです。Claude Opus 4.6の65.4%は十分に近く、ベンチマーク差だけを理由に成熟したClaude Codeワークフローを移行しようとは思いません。GPT-5.2の54.0%は、コストが支配的な制約であるか、非常に強力なハーネスで囲っている場合を除き、難しいターミナル自動化には避けたいモデルです。

CLIコーディングエージェント向けモデルの選び方

実用上のランキングは、何を買っているかによって変わります。

最強の 共通ハーネスでのターミナルスコア が欲しいなら、まず Gemini 3.1 Pro から始めるべきです。検証済みの比較行で首位であり、200kプロンプトトークン未満の標準的なトークン単価ではClaude Opus 4.6より安価です。注意点は、大規模リポジトリ向けに200kを超えるプロンプトでは、Googleの公表価格が入力/出力100万トークンあたり$2/$12から$4/$18に上がるため、長コンテキストのエージェント実行には予算管理とキャッシュ運用が必要になることです（Google AI）。

すでにClaude中心のワークフローを運用しているなら、Claude Opus 4.6 は引き続き強力な選択肢です。Anthropicは2026年2月5日にOpus 4.6をリリースし、より強いコーディング能力、長時間のエージェント型タスク性能、開発者プラットフォーム向けベータ版の100万トークンコンテキストウィンドウを打ち出しました（Anthropic）。Terminus-2スコア65.4%はGeminiに近い水準です。価格は高めで、標準価格では100万トークンあたり入力$5、出力$25です。

最良の Codex固有のターミナル数値 が欲しいなら、GPT-5.3-Codexは別枠で評価する価値があります。プロバイダー報告のTerminal-Bench 2.0スコア77.3%はOpenAIのCodexセットアップに紐づいており、一方で共通のTerminus-2行では64.7%です。これは矛盾ではありません。警告ラベルです。

GPT-5.2 を検討しているなら、その根拠はコストと汎用能力であり、最高峰のターミナルエージェンシーではありません。OpenAIはGPT-5.2を入力/出力100万トークンあたり$1.75/$14と価格設定しており、APIでxhigh推論努力をサポートすると述べています（OpenAI）。しかし、共通のTerminal-Bench 2.0行では54.0%であり、大きな差があります。

結論

ターミナルベースのコーディングエージェントについては、私は次のように候補を絞ります。共通ハーネスでのTerminal-Bench 2.0性能が最良のGemini 3.1 Pro、長コンテキストのコーディング信頼性を重視し、すでにClaudeワークフローを信頼しているチーム向けのClaude Opus 4.6、ターゲット実行環境がCodexそのものである場合のGPT-5.3-Codex、そしてターミナル成功率より価格やAPI可用性が重要な場合に限るGPT-5.2。

主な教訓は方法論にあります。Terminal-Benchのスコアは決して「モデル」だけのものではありません。CLIエージェントを構築する開発者にとって、ハーネスはプロダクトの一部です。2つの数値を追跡しましょう。生の移植性を示す共通ハーネススコアと、ネイティブスタック全体で何ができるかを示すプロバイダーハーネススコアです。

これらのモデルを実際に試したい読者は、OpenAI互換APIを備えたonehopでClaudeやその他のモデルを呼び出せます。変更するのは1つの base_url だけで、クライアントの残りはほぼそのままにしつつ、ファーストパーティ経路とコストを比較できます。新規アカウントにはカード不要で$10の無料クレジットが付与されます: onehopでClaudeやその他のモデルを呼び出す、または $10の無料クレジットに登録する。

Terminal-Bench 2.0におけるGemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6

重要な数字: 68.5%

開発者が実際に使うべきベンチマーク表

GPT-5.3-Codexに2つの異なる見え方がある理由

Terminal-Bench 2.0がSWE-Benchよりうまく測るもの

CLIコーディングエージェント向けモデルの選び方

結論

関連記事

SWE-Bench ProにおけるGPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro

Aider Polyglot Codingで比較するGPT-5 vs Gemini 2.5 Pro vs Claude Opus 4

DashScope 互換モード経由で OpenAI SDK から Qwen3.7 Plus を呼び出す