सभी लेखों पर वापस जाएं
बेंचमार्क

Aider Polyglot Coding पर GPT-5 बनाम Gemini 2.5 Pro बनाम Claude Opus 4

17 जून 2026 · 20 मिनट पढ़ें · Claude / GPT / Gemini

क्रीम बैकग्राउंड पर संपादकीय इलस्ट्रेशन, जिसमें तीन अमूर्त coding model cards एक polyglot test grid पर दौड़ रहे हैं, with te

Scoreboard में स्पष्ट विजेता है

GPT-5 high, Aider Polyglot पर 88.0% पर है। यानी 225 में से 198 solved cases, और यह कोई छोटा-सा leaderboard wobble नहीं है। इसी benchmark पर, Gemini 2.5 Pro Preview 06-05 with 32k thinking 83.1% पर आता है, जबकि Claude Opus 4 with 32k thinking 72.0% पर, Aider के आधिकारिक Polyglot leaderboard के अनुसार (Aider).

यह अंतर मायने रखता है क्योंकि Aider Polyglot कोई खिलौना “Fibonacci function लिखो” test नहीं है। Aider इसे C++, Go, Java, JavaScript, Python, और Rust में 225 Exercism coding exercises के रूप में वर्णित करता है (Aider). Model को code edit करना होता है, valid diff बनाना होता है, और tests pass कराने होते हैं। यह single-shot multiple-choice benchmark की तुलना में agentic coding की रोज़मर्रा की मेहनत के कहीं ज़्यादा करीब है।

Headline: GPT-5 raw pass rate और cost per successful fix, दोनों में जीतता है। Gemini correctness में करीब है और output format discipline में कहीं बेहतर है। Claude Opus 4 इस particular benchmark पर महंगा और पीछे दिखता है, जबकि Anthropic ने इसे मई 2025 में top coding model के रूप में launch किया था (Anthropic).

Aider Polyglot pass rate की तुलना करता horizontal bar chart: GPT-5 high 88.0% पर, Gemini 2.5 Pro Preview 06-05 32k thinki

Raw Results: Pass Rate, Cost, Format Reliability

यह रहा compact view। ये Aider run results हैं, vendor marketing numbers नहीं।

Model Aider run date Pass rate Solved / 225 Cost per run Cost per solved case Correct edit format Edit format
GPT-5 high 2025-08-23 88.0% 198 $29.08 $0.147 91.6% diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83.1% 187 $49.88 $0.267 99.6% diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72.0% 162 $65.75 $0.406 97.3% diff

Pass-rate deltas सरल हैं:

  • GPT-5, Gemini को 4.9 percentage points से, या 11 अधिक solved tasks से हराता है।
  • GPT-5, Claude Opus 4 को 16.0 points से, या 36 अधिक solved tasks से हराता है।
  • Gemini, Claude Opus 4 को 11.1 points से, या 25 अधिक solved tasks से हराता है।

Cost deltas और भी तीखे हैं। GPT-5 की run cost Gemini से लगभग 42% कम और Claude से 56% कम है। Claude per run GPT-5 से लगभग 2.26x खर्च करता है, जबकि 36 fewer cases solve करता है।

यही Claude के लिए असहज हिस्सा है। Opus 4 सिर्फ पीछे नहीं है; वह ज़्यादा खर्च करते हुए पीछे है।

Cost Gap इतना बड़ा क्यों है

Token list price इसका बड़ा हिस्सा समझा देती है।

OpenAI ने GPT-5 को $1.25 per million input tokens और $10 per million output tokens पर price किया था, जब उसने API model family launch की (OpenAI). Google की current Gemini 2.5 Pro standard pricing भी 200k tokens तक के prompts के लिए $1.25 input और $10 output per million tokens है, 200k से ऊपर higher rates के साथ (Google AI). Anthropic का Claude Opus 4 $15 input और $75 output per million tokens पर priced था, और Anthropic का current pricing page अब Claude Opus 4 को Vertex AI को छोड़कर retired mark करता है, जबकि वे historical rates अभी भी list करता है (Anthropic Docs).

Aider की token usage इसी कहानी से मेल खाती है। Gemini run ने लगभग 2.72M prompt tokens और 4.65M completion tokens इस्तेमाल किए, जो $1.25/$10 pricing पर report की गई $49.88 run cost से लगभग बिल्कुल match करता है। Claude run ने fewer completion tokens, लगभग 363k, इस्तेमाल किए, लेकिन Opus 4 के $75/M output price ने फिर भी run को $65.75 तक पहुंचा दिया।

GPT-5 दिलचस्प case है। इसने लगभग 2.68M prompt tokens और 2.62M completion tokens इस्तेमाल किए। इसने Gemini से ज़्यादा cases solve किए, जबकि लगभग 2.0M fewer completion tokens emit किए। OpenAI ने भी कहा था कि GPT-5 ने Aider Polyglot पर 88% score किया और अपने developer launch post में इसे new record बताया (OpenAI).

Developers के लिए ध्यान देने वाली बात यह है: benchmark cost सिर्फ list price नहीं है। यह list price को model की think, retry, explain, और large diffs emit करने की tendency से multiply करने पर बनती है।

Scatter plot जिसमें x-axis cost per Aider run और y-axis pass rate है; GPT-5 high upper-left में $29.08 और 88.0% पर, Gemini 2

Edit Format: Gemini सबसे साफ-सुथरा Operator है

GPT-5 benchmark जीतता है, लेकिन Gemini format-discipline column जीतता है।

Aider, Gemini 2.5 Pro Preview 06-05 को 99.6% correct edit format पर report करता है, केवल एक malformed response के साथ। Claude Opus 4 भी 97.3% पर strong है। GPT-5 high 91.6% पर कम है, run के दौरान 22 malformed responses के साथ (Aider).

यह छोटा implementation detail लगता है, जब तक आप real repo में agents नहीं चलाते। Bad edit format का मतलब है wasted turns, failed patch application, या human को tool बचाना पड़े। अगर आपका workflow “model diff propose करता है, CI checks करते हैं, agent iterate करता है” है, तो format reliability intelligence का हिस्सा है।

फिर भी, GPT-5 का lower format score उसे जीतने से नहीं रोक पाया। इससे दो बातें पता चलती हैं। पहली, वह अधिक malformed attempts के बावजूद recover कर सकता है या enough correct edits produce कर सकता है। दूसरी, pass rate आखिरकार neatness से ज़्यादा कठोर metric है। Perfectly formatted wrong patch फिर भी wrong ही है।

Reasonable read: जब सबसे कठिन हिस्सा bug solve करना हो, GPT-5 इस्तेमाल करें। जब आपकी pipeline strict diff formatting के प्रति बहुत sensitive हो और आप solved cases में छोटी गिरावट सह सकते हों, Gemini इस्तेमाल करें।

Model Versions और Date Traps

इस comparison में एक trap है: ये historical benchmark entries हैं, 17 जून 2026 को हर current production endpoint के बारे में statement नहीं।

Gemini 2.5 Pro Preview 06-05 को 5 जून 2025 को adaptive thinking के साथ release किया गया था; Google ने बाद में 17 जून 2025 को stable gemini-2.5-pro release किया, और उसके changelog में कहा गया है कि old preview IDs को बाद में model lifecycle के तहत shut down या redirect कर दिया गया (Google AI changelog). Claude Opus 4, 22 मई 2025 को launch हुआ, और Anthropic के pricing docs अब Claude Opus 4 को Vertex AI को छोड़कर retired mark करते हैं (Anthropic Docs). GPT-5 बाद में, 7 अगस्त 2025 को launch हुआ, और OpenAI का API post launch के समय gpt-5, gpt-5-mini, और gpt-5-nano को API sizes के रूप में list करता है (OpenAI).

इसलिए fair comparison है: “Aider के recorded runs में इन named models ने कैसा perform किया?” यह नहीं: “आज किस vendor की newest model family best है?”

यह distinction procurement और engineering decisions के लिए मायने रखता है। अगर आपकी team आज coding model चुन रही है, तो अपने stack पर एक छोटा internal eval फिर से चलाएँ। इसमें अपना repo size, test latency, preferred edit format, और actual retry policy शामिल करें।

Minimal harness boring और useful हो सकता है:

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

फिर solved tickets, failed patch applications, CI passes, wall time, और dollars per merged fix measure करें।

मैं क्या चुनता

अगर मुझे इस Aider snapshot से coding agent के लिए एक model चुनना हो, तो मैं GPT-5 high से शुरू करता। इसका pass rate सबसे अच्छा है, तीनों में run cost सबसे कम है, और cost per solved case भी best है। 91.6% correct edit format एक दाग है, लेकिन 88.0% solve rate को मिटाने के लिए काफी नहीं।

Gemini 2.5 Pro strong second choice है। इसका 83.1% pass rate इतना करीब है कि strict patch-format automation वाली teams को इसे गंभीरता से लेना चाहिए। 99.6% correct edit-format rate उत्कृष्ट है। Downside इस run में cost है: GPT-5 से 11 fewer solved cases के लिए $49.88 चुकाना काफी है।

Claude Opus 4 यहां hard sell है। Anthropic ने Opus 4 को serious coding और agent model के रूप में position किया था, और उसने launch के समय दूसरे coding benchmarks पर strong work किया, जिनमें Anthropic के release post में SWE-bench और Terminal-bench claims शामिल थे (Anthropic). लेकिन Aider Polyglot पर, यह particular Opus 4 run कमजोर भी है और महंगा भी। जब तक आपका internal workload Claude-specific strengths नहीं दिखाता, जैसे codebase taste, long-context collaboration, या fewer destructive edits, Aider data इस job के लिए GPT-5 या Gemini के ऊपर Opus 4 चुनने को justify नहीं करता।

Practical rule: “best coding model” को brand claim की तरह न खरीदें। Passed tests per dollar खरीदें, edit reliability को guardrail रखते हुए।

जो readers इन models को hands-on try करना चाहते हैं, वे onehop के जरिए OpenAI-compatible API से सिर्फ एक base_url बदलकर इन्हें call कर सकते हैं। यह first-party से cheaper है, नए accounts के लिए $10 free credit शामिल है, और card की ज़रूरत नहीं है: onehop पर Claude और दूसरे models call करें, या $10 free credit के लिए sign up करें.