Terminal-Bench 2.0 पर Gemini 3.1 Pro बनाम GPT-5.2 बनाम Claude Opus 4.6
16 जून 2026 · 21 मिनट पढ़ें · Claude / GPT / Gemini

सबसे अहम नंबर: 68.5%
Google DeepMind के Gemini 3.1 Pro model card में Terminus-2 harness का उपयोग करते हुए Gemini 3.1 Pro को Terminal-Bench 2.0 पर 68.5% पर रखा गया है। उसी table में, उसी harness line के तहत Claude Opus 4.6 का score 65.4%, GPT-5.3-Codex का score 64.7%, और GPT-5.2 का score 54.0% है (Google DeepMind).
मौजूदा public material में यह सबसे साफ़ apples-to-apples row है। इसका मतलब है: अगर आप इन models को उसी reported Terminus-2 setup से चलाते हैं, तो Gemini 3.1 Pro आगे है, Claude Opus 4.6 करीब है, GPT-5.3-Codex मूल रूप से उसी band में है, और GPT-5.2 काफी पीछे है।
लेकिन यहाँ एक trap है। Terminal-Bench सिर्फ़ model benchmark नहीं है। यह model plus agent plus harness benchmark है।
Epoch AI का Terminal-Bench 2.0 page benchmark को ऐसे tasks के रूप में describe करता है जहाँ agents को real terminal के अंदर operate करना होता है: filesystem समझना, installed programs का उपयोग करना, running processes के बारे में reason करना, और हर command बताए बिना tasks complete करना। यह यह भी कहता है कि scores model-agent combinations के लिए report किए जाते हैं क्योंकि agent performance को materially बदल सकता है (Epoch AI). यह एक sentence आपको हर leaderboard पढ़ने का तरीका बदल देना चाहिए।

वह benchmark table जिसे developers को सच में इस्तेमाल करना चाहिए
यहाँ useful cut है, केवल उन numbers तक सीमित जिन्हें मैं primary sources से verify कर सका।
| Model | Terminal-Bench 2.0 score | Harness / source context | API price, if relevant |
|---|---|---|---|
| Gemini 3.1 Pro | 68.5% | Google model card में Terminus-2 harness | ≤200k prompts के लिए $2/$12 per 1M input/output tokens; 200k से ऊपर $4/$18 (Google AI) |
| Claude Opus 4.6 | 65.4% | Google model card में Terminus-2 harness; Google methodology note के अनुसार public leaderboard | $5/$25 per 1M input/output tokens (Anthropic) |
| GPT-5.3-Codex | 64.7% | Google model card में Terminus-2 harness | OpenAI का provider run Codex CLI का उपयोग करके 77.3% report करता है, वही harness नहीं (OpenAI) |
| GPT-5.2 | 54.0% | Google model card में Terminus-2 harness | $1.75/$14 per 1M input/output tokens (OpenAI) |
Terminus-2 के तहत ordering सीधी है: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.
बड़ा engineering point कम tidy है। Google की अपनी methodology PDF कहती है कि Gemini scores self-computed हैं, जबकि non-Gemini model numbers आम तौर पर provider-reported हैं जब तक अलग से न कहा गया हो। Terminal-Bench 2.0 के लिए specifically, यह कहती है कि Gemini 3.1 Pro self-computed है, बाकी models public leaderboard से आते हैं, और results default Terminus-2 harness और जहाँ applicable हो वहाँ अन्य best self-reported harnesses दोनों के लिए report किए गए हैं (Google DeepMind methodology PDF).
तो fair read यह नहीं है कि “Gemini सबको crush कर देता है।” यह है: Gemini साझा Terminus-2 comparison में Claude से 3.1 percentage points और GPT-5.3-Codex से 3.8 points आगे है। इस setup में GPT-5.2 साफ़ laggard है।
GPT-5.3-Codex की दो अलग कहानियाँ क्यों हैं
सबसे confusing row GPT-5.3-Codex है।
Google का model card इसे Terminus-2 harness पर 64.7% देता है। एक line नीचे, वही card “other best self-reported harness” numbers list करता है: GPT-5.2 62.2% using Codex, और GPT-5.3-Codex 77.3% using Codex (Google DeepMind). OpenAI की अपनी GPT-5.3-Codex announcement भी Terminal-Bench 2.0 पर 77.3% report करती है, xhigh reasoning effort के साथ, और model को explicitly Codex के लिए coding agent model के रूप में frame करती है (OpenAI).
दोनों सच हो सकते हैं।
CLI coding agent stateless chat completion नहीं होता। Harness तय करता है कि files कैसे expose होंगी, commands कैसे run होंगी, patches कैसे apply होंगे, state कैसे summarize होगी, model किसी bad path से कितनी बार recover कर सकता है, और कभी-कभी reasoning effort कैसे चुना जाएगा। अगर आप Codex CLI इस्तेमाल करते हैं, तो OpenAI का 77.3% number relevant है। अगर आप models की तुलना उसी third-party agent harness के अंदर कर रहे हैं, तो 64.7% Terminus-2 number cleaner comparison है।
यह distinction सीधे real usage से map होता है:
# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli
अगर आपकी team अपना CLI agent बना रही है, तो किसी provider का best harness score spreadsheet में copy करके उसे model quality मत कहिए। इसे system quality मानिए: model, tool loop, memory, retry policy, patch mechanics, sandbox, और prompt contract।

Terminal-Bench 2.0, SWE-Bench से बेहतर क्या measure करता है
SWE-Bench अभी भी useful है, लेकिन Terminal-Bench एक अलग failure mode पकड़ता है। कोई model plausible patch generate कर सकता है और फिर भी shell के अंदर रहने में खराब हो सकता है।
Terminal-Bench tasks में QEMU में Linux kernel build करना, Git web server configure करना, दिए गए secret के लिए 7z hash crack करना, OpenSSL certificates generate करना, और data files reshape करना जैसी चीज़ें शामिल हैं। Terminal-Bench site version 2.0 को software engineering, machine learning, security, data science, और अन्य domains में 89 high-quality tasks के रूप में describe करती है (Terminal-Bench).
यह मायने रखता है क्योंकि CLI agents boring, महंगे तरीकों से fail होते हैं:
- वे भूल जाते हैं कि filesystem में वे कहाँ हैं।
- वे command run करते हैं, stderr ignore करते हैं, और गलत file patch कर देते हैं।
- वे visible tests pass कर लेते हैं लेकिन hidden invariant miss कर देते हैं।
- वे plan बनाने के बजाय explore करने में tokens जला देते हैं।
- वे एक failed install या एक flaky test के बाद अटक जाते हैं।
इन tasks पर, Gemini 3.1 Pro का 68.5% Terminus-2 score impressive है क्योंकि यह सिर्फ़ code synthesis नहीं, बल्कि strong command-loop behavior suggest करता है। Claude Opus 4.6 का 65.4% इतना करीब है कि मैं सिर्फ़ benchmark delta के आधार पर mature Claude Code workflow migrate नहीं करूंगा। GPT-5.2 का 54.0% वह है जिसे मैं hard terminal automation के लिए avoid करूंगा, जब तक cost dominant constraint न हो या आपके पास इसके around बहुत strong harness न हो।
CLI coding agent के लिए model चुनना
मेरी practical ranking इस पर निर्भर करती है कि आप क्या खरीद रहे हैं।
अगर आप सबसे मजबूत shared-harness terminal score चाहते हैं, तो Gemini 3.1 Pro से शुरू करें। यह verified comparison row में lead करता है और 200k prompt tokens से कम standard per-token pricing पर Claude Opus 4.6 से सस्ता है। Catch: 200k से ऊपर large-repo prompts के लिए, Google की posted price $2/$12 से बढ़कर $4/$18 per 1M input/output tokens हो जाती है, इसलिए long-context agent runs को budgets और cache discipline चाहिए (Google AI).
अगर आप पहले से Claude-heavy workflow चलाते हैं, तो Claude Opus 4.6 मजबूत choice बना रहता है। Anthropic ने Opus 4.6 को 5 फरवरी, 2026 को release किया, stronger coding, longer agentic task performance, और developer platform के लिए beta में 1M-token context window के साथ (Anthropic). इसका 65.4% Terminus-2 score Gemini के करीब है। Price ज्यादा है: standard pricing में $5 input और $25 output per million tokens।
अगर आप सबसे अच्छा Codex-specific terminal number चाहते हैं, तो GPT-5.3-Codex अलग evaluation deserve करता है। इसका provider-reported 77.3% Terminal-Bench 2.0 score OpenAI के Codex setup से tied है, जबकि shared Terminus-2 row 64.7% है। यह contradiction नहीं है। यह warning label है।
अगर आप GPT-5.2 देख रहे हैं, तो case cost और general capability का है, peak terminal agency का नहीं। OpenAI GPT-5.2 को $1.75/$14 per million input/output tokens पर price करता है और कहता है कि यह API में xhigh reasoning effort support करता है (OpenAI). लेकिन shared Terminal-Bench 2.0 row पर, 54.0% एक बड़ा gap है।
Bottom line
Terminal-based coding agents के लिए, मैं models को इस तरह shortlist करूंगा: best shared-harness Terminal-Bench 2.0 performance के लिए Gemini 3.1 Pro, long-context coding reliability को value करने और पहले से Claude workflows पर भरोसा करने वाली teams के लिए Claude Opus 4.6, जब target runtime खुद Codex हो तब GPT-5.3-Codex, और GPT-5.2 सिर्फ़ तब जब price या API availability terminal success rate से ज्यादा मायने रखती हो।
मुख्य lesson methodological है। Terminal-Bench score कभी भी सिर्फ़ “model” नहीं होता। CLI agents बनाने वाले developers के लिए, harness product का हिस्सा है। दोनों numbers track करें: shared-harness score जो raw portability बताता है, और provider-harness score जो बताता है कि full native stack क्या कर सकता है।
जो readers इन models को hands-on try करना चाहते हैं, वे OpenAI-compatible API के साथ onehop पर Claude और अन्य models call कर सकते हैं: एक base_url बदलें, बाकी client लगभग वही रखें, और first-party routes के मुकाबले costs compare करें। New accounts को बिना card के $10 free credit मिलता है: onehop पर Claude और अन्य models call करें, या $10 free credit के लिए sign up करें.
संबंधित लेख

Aider Polyglot Coding पर GPT-5 बनाम Gemini 2.5 Pro बनाम Claude Opus 4
Aider Polyglot coding पर GPT-5, Gemini 2.5 Pro और Claude Opus 4 की डेटा-आधारित तुलना।
17 जून 2026 · 20 मिनट पढ़ें

OpenAI SDK के साथ Groq GPT-OSS 120B इस्तेमाल करें: Base URL, Pricing और Caching
OpenAI SDK का base URL बदलकर Groq पर GPT-OSS 120B चलाएँ, cached token लागत आँकें और tool billing surprises से बचें।
17 जून 2026 · 25 मिनट पढ़ें

SuperGrok या X Premium सब्सक्रिप्शन के साथ Warp में Grok Build का उपयोग
xAI अब Warp उपयोगकर्ताओं को Grok या X Premium जोड़कर terminal agent workflows में grok-build-0.1 चलाने देता है।
16 जून 2026 · 21 मिनट पढ़ें