すべての記事へ戻る
ベンチマーク

Aider Polyglot Codingで比較するGPT-5 vs Gemini 2.5 Pro vs Claude Opus 4

2026年6月17日 · 15分で読めます · Claude / GPT / Gemini

クリーム色の背景に、多言語テストグリッド上を競走する3枚の抽象的なコーディングモデルカードを描いたエディトリアルイラスト、te付き

スコアボードには明確な勝者がいる

GPT-5 highはAider Polyglotで88.0%を記録している。225件中198件を解決しており、リーダーボード上のわずかな揺れではない。同じベンチマークで、Gemini 2.5 Pro Preview 06-05(32k thinking)は83.1%、Claude Opus 4(32k thinking)は72.0%にとどまる。これはAider公式のPolyglotリーダーボードによるものだ(Aider)。

この差が重要なのは、Aider Polyglotが「Fibonacci関数を書け」というようなおもちゃのテストではないからだ。Aiderはこれを、C++、Go、Java、JavaScript、Python、Rustにまたがる225問のExercismコーディング課題として説明している(Aider)。モデルはコードを編集し、有効なdiffを生成し、テストを通さなければならない。これは単発の多肢選択式ベンチマークよりも、エージェント型コーディングの日々の泥臭い作業にはるかに近い。

見出しにするとこうだ。GPT-5は生の合格率と、成功した修正1件あたりのコストで勝っている。Geminiは正確性で迫っており、出力フォーマットの規律では大きく優れている。Claude Opus 4は、Anthropicが2025年5月にトップクラスのコーディングモデルとして発表したにもかかわらず、この特定のベンチマークでは高価で遅れを取っている(Anthropic)。

Aider Polyglotの合格率を比較する横棒グラフ。GPT-5 highは88.0%、Gemini 2.5 Pro Preview 06-05 32k thinki

生の結果:合格率、コスト、フォーマット信頼性

以下がコンパクトな一覧だ。これはAiderの実行結果であり、ベンダーのマーケティング数値ではない。

Model Aider実行日 合格率 解決数 / 225 1回の実行コスト 解決1件あたりのコスト 正しい編集フォーマット 編集フォーマット
GPT-5 high 2025-08-23 88.0% 198 $29.08 $0.147 91.6% diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83.1% 187 $49.88 $0.267 99.6% diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72.0% 162 $65.75 $0.406 97.3% diff

合格率の差はシンプルだ。

  • GPT-5はGeminiを4.9ポイント、解決タスク数では11件上回る。
  • GPT-5はClaude Opus 4を16.0ポイント、解決タスク数では36件上回る。
  • GeminiはClaude Opus 4を11.1ポイント、解決タスク数では25件上回る。

コスト差はさらに鋭い。GPT-5の実行コストはGeminiより約42%低く、Claudeより56%低い。Claudeは1回の実行あたりGPT-5の約2.26倍のコストがかかる一方で、解決件数は36件少ない。

ここがClaudeにとって厳しい点だ。Opus 4は単に遅れているだけではない。より高いコストをかけながら遅れている。

なぜコスト差がこれほど大きいのか

その大部分はトークンの定価で説明できる。

OpenAIはAPIモデルファミリーのローンチ時に、GPT-5を入力100万トークンあたり$1.25、出力100万トークンあたり$10と価格設定した(OpenAI)。Googleの現在のGemini 2.5 Pro標準価格も、200kトークンまでのプロンプトでは入力100万トークンあたり$1.25、出力100万トークンあたり$10で、200kを超えるとより高い料金になる(Google AI)。AnthropicのClaude Opus 4は入力100万トークンあたり$15、出力100万トークンあたり$75と価格設定されており、Anthropicの現在の料金ページではClaude Opus 4はVertex AI上を除きretiredと表示されているが、これらの過去の料金は引き続き掲載されている(Anthropic Docs)。

Aiderのトークン使用量もこの説明と一致している。Geminiの実行では約272万のプロンプトトークンと465万の補完トークンが使われており、$1.25/$10の料金体系にほぼ正確に対応して、報告された実行コスト$49.88になる。Claudeの実行では補完トークンは約36.3万と少なかったが、Opus 4の出力単価$75/Mが効いて、実行コストは$65.75まで押し上げられた。

GPT-5は興味深いケースだ。約268万のプロンプトトークンと262万の補完トークンを使用した。Geminiよりも多くのケースを解決しながら、出力した補完トークンは約200万少ない。OpenAIも、GPT-5がAider Polyglotで88%を記録したと述べ、開発者向けローンチ記事でこれを新記録と説明している(OpenAI)。

開発者が注目すべきはここだ。ベンチマークのコストは単なる定価ではない。定価に、そのモデルが考え、リトライし、説明し、大きなdiffを出力しがちな傾向を掛け合わせたものだ。

横軸にAider実行あたりのコスト、縦軸に合格率を取った散布図。GPT-5 highは左上、$29.08かつ88.0%、Gemini 2

編集フォーマット:Geminiは最もきれいに動くオペレーター

GPT-5はベンチマークで勝っているが、フォーマット規律の列ではGeminiが勝っている。

Aiderによると、Gemini 2.5 Pro Preview 06-05の正しい編集フォーマット率は99.6%で、不正なレスポンスは1件だけだった。Claude Opus 4も97.3%と強い。GPT-5 highは91.6%と低く、実行全体で22件の不正なレスポンスがあった(Aider)。

実際のリポジトリでエージェントを動かすまでは、これは小さな実装上の細部に聞こえるかもしれない。だが編集フォーマットが悪いと、ターンが無駄になり、パッチ適用に失敗し、人間がツールを救出しなければならなくなる。「モデルがdiffを提案し、CIがチェックし、エージェントが反復する」というワークフローでは、フォーマット信頼性も知能の一部だ。

それでも、GPT-5のフォーマットスコアの低さは勝利を妨げなかった。そこから2つのことが分かる。第一に、GPT-5は不正な試行が多くても、リカバリするか、十分な数の正しい編集を生成できる。第二に、合格率は最終的に、見た目の整然さよりも厳しい指標だ。完璧にフォーマットされた間違ったパッチは、やはり間違いでしかない。

妥当な読み方はこうだ。最も難しい部分がバグを解くことならGPT-5を使う。パイプラインが厳密なdiffフォーマットに非常に敏感で、解決件数が少し落ちることを許容できるならGeminiを使う。

モデルバージョンと日付の罠

この比較には1つ罠がある。これらは過去のベンチマーク記録であり、2026年6月17日時点のすべての現行本番エンドポイントについて述べたものではない。

Gemini 2.5 Pro Preview 06-05は、adaptive thinking付きで2025年6月5日にリリースされた。Googleはその後、2025年6月17日に安定版のgemini-2.5-proをリリースしており、changelogによると古いpreview IDは後に停止されるか、モデルライフサイクルを通じてリダイレクトされた(Google AI changelog)。Claude Opus 4は2025年5月22日にローンチされ、Anthropicの料金ドキュメントでは現在、Claude Opus 4はVertex AI上を除きretiredと表示されている(Anthropic Docs)。GPT-5はその後、2025年8月7日にローンチされ、OpenAIのAPI記事ではローンチ時のAPIサイズとしてgpt-5gpt-5-minigpt-5-nanoが挙げられている(OpenAI)。

したがって公平な比較は、「これらの名前付きモデルは、Aiderに記録された実行でどう振る舞ったか」だ。「今日、どのベンダーの最新モデルファミリーが最良か」ではない。

この区別は、調達にもエンジニアリング上の判断にも重要だ。チームが今日コーディングモデルを選ぶなら、自分たちのスタックで小規模な社内評価を再実行すべきだ。リポジトリサイズ、テストのレイテンシ、好みの編集フォーマット、実際のリトライ方針を含める。

最小限のハーネスは、地味だが有用になり得る。

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

そのうえで、解決したチケット数、パッチ適用失敗、CI通過、実時間、マージされた修正1件あたりのドルコストを測定する。

私なら何を選ぶか

このAiderスナップショットからコーディングエージェント向けに1つモデルを選ぶなら、私はGPT-5 highから始める。合格率が最も高く、3つの中で実行コストが最も低く、解決1件あたりのコストも最良だ。91.6%という正しい編集フォーマット率は傷ではあるが、88.0%の解決率を帳消しにするほどではない。

Gemini 2.5 Proは強力な第2候補だ。83.1%の合格率は十分に近く、厳格なパッチフォーマット自動化を持つチームなら真剣に検討すべきだ。99.6%の正しい編集フォーマット率は優秀である。欠点はこの実行でのコストだ。GPT-5より解決件数が11件少ないのに$49.88を支払うのは高い。

Claude Opus 4はここでは売り込みが難しい。AnthropicはOpus 4を本格的なコーディングおよびエージェントモデルとして位置づけ、ローンチ時にはAnthropicの発表記事でのSWE-benchやTerminal-benchの主張を含め、他のコーディングベンチマークで強い成果を出していた(Anthropic)。しかしAider Polyglotでは、この特定のOpus 4実行はより弱く、より高価でもある。コードベースへの感覚、長文コンテキストでの協調、破壊的編集の少なさといったClaude固有の強みが社内ワークロードで示されない限り、この仕事でOpus 4をGPT-5やGeminiより選ぶことをAiderのデータは正当化しない。

実用上のルールはこうだ。「最高のコーディングモデル」というブランド上の主張を買ってはいけない。編集信頼性をガードレールにしつつ、1ドルあたりのテスト通過数を買うべきだ。

これらのモデルを実際に試したい読者は、base_urlを1つ変更するだけで、OpenAI互換APIを使ってonehop経由で呼び出せる。ファーストパーティより安く、新規アカウントには$10の無料クレジットが付き、カードも不要だ。onehopでClaudeやその他のモデルを呼び出す、または$10の無料クレジットに登録する