सभी लेखों पर वापस जाएं
बेंचमार्क

Terminal-Bench 2.0 पर Gemini 3.1 Pro बनाम GPT-5.2 बनाम Claude Opus 4.6

16 जून 2026 · 21 मिनट पढ़ें · Claude / GPT / Gemini

क्रीम-बैकग्राउंड वाला संपादकीय कवर, जिसमें तीन अमूर्त terminal windows stacked charcoal cards के रूप में दिखती हैं, हर एक जुड़ी हुई

सबसे अहम नंबर: 68.5%

Google DeepMind के Gemini 3.1 Pro model card में Terminus-2 harness का उपयोग करते हुए Gemini 3.1 Pro को Terminal-Bench 2.0 पर 68.5% पर रखा गया है। उसी table में, उसी harness line के तहत Claude Opus 4.6 का score 65.4%, GPT-5.3-Codex का score 64.7%, और GPT-5.2 का score 54.0% है (Google DeepMind).

मौजूदा public material में यह सबसे साफ़ apples-to-apples row है। इसका मतलब है: अगर आप इन models को उसी reported Terminus-2 setup से चलाते हैं, तो Gemini 3.1 Pro आगे है, Claude Opus 4.6 करीब है, GPT-5.3-Codex मूल रूप से उसी band में है, और GPT-5.2 काफी पीछे है।

लेकिन यहाँ एक trap है। Terminal-Bench सिर्फ़ model benchmark नहीं है। यह model plus agent plus harness benchmark है।

Epoch AI का Terminal-Bench 2.0 page benchmark को ऐसे tasks के रूप में describe करता है जहाँ agents को real terminal के अंदर operate करना होता है: filesystem समझना, installed programs का उपयोग करना, running processes के बारे में reason करना, और हर command बताए बिना tasks complete करना। यह यह भी कहता है कि scores model-agent combinations के लिए report किए जाते हैं क्योंकि agent performance को materially बदल सकता है (Epoch AI). यह एक sentence आपको हर leaderboard पढ़ने का तरीका बदल देना चाहिए।

क्रीम बैकग्राउंड पर horizontal bar chart, जो Terminal-Bench 2.0 Terminus-2 scores की तुलना करता है: Gemini 3.1 Pro 68.5, Claude Opu

वह benchmark table जिसे developers को सच में इस्तेमाल करना चाहिए

यहाँ useful cut है, केवल उन numbers तक सीमित जिन्हें मैं primary sources से verify कर सका।

Model Terminal-Bench 2.0 score Harness / source context API price, if relevant
Gemini 3.1 Pro 68.5% Google model card में Terminus-2 harness ≤200k prompts के लिए $2/$12 per 1M input/output tokens; 200k से ऊपर $4/$18 (Google AI)
Claude Opus 4.6 65.4% Google model card में Terminus-2 harness; Google methodology note के अनुसार public leaderboard $5/$25 per 1M input/output tokens (Anthropic)
GPT-5.3-Codex 64.7% Google model card में Terminus-2 harness OpenAI का provider run Codex CLI का उपयोग करके 77.3% report करता है, वही harness नहीं (OpenAI)
GPT-5.2 54.0% Google model card में Terminus-2 harness $1.75/$14 per 1M input/output tokens (OpenAI)

Terminus-2 के तहत ordering सीधी है: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

बड़ा engineering point कम tidy है। Google की अपनी methodology PDF कहती है कि Gemini scores self-computed हैं, जबकि non-Gemini model numbers आम तौर पर provider-reported हैं जब तक अलग से न कहा गया हो। Terminal-Bench 2.0 के लिए specifically, यह कहती है कि Gemini 3.1 Pro self-computed है, बाकी models public leaderboard से आते हैं, और results default Terminus-2 harness और जहाँ applicable हो वहाँ अन्य best self-reported harnesses दोनों के लिए report किए गए हैं (Google DeepMind methodology PDF).

तो fair read यह नहीं है कि “Gemini सबको crush कर देता है।” यह है: Gemini साझा Terminus-2 comparison में Claude से 3.1 percentage points और GPT-5.3-Codex से 3.8 points आगे है। इस setup में GPT-5.2 साफ़ laggard है।

GPT-5.3-Codex की दो अलग कहानियाँ क्यों हैं

सबसे confusing row GPT-5.3-Codex है।

Google का model card इसे Terminus-2 harness पर 64.7% देता है। एक line नीचे, वही card “other best self-reported harness” numbers list करता है: GPT-5.2 62.2% using Codex, और GPT-5.3-Codex 77.3% using Codex (Google DeepMind). OpenAI की अपनी GPT-5.3-Codex announcement भी Terminal-Bench 2.0 पर 77.3% report करती है, xhigh reasoning effort के साथ, और model को explicitly Codex के लिए coding agent model के रूप में frame करती है (OpenAI).

दोनों सच हो सकते हैं।

CLI coding agent stateless chat completion नहीं होता। Harness तय करता है कि files कैसे expose होंगी, commands कैसे run होंगी, patches कैसे apply होंगे, state कैसे summarize होगी, model किसी bad path से कितनी बार recover कर सकता है, और कभी-कभी reasoning effort कैसे चुना जाएगा। अगर आप Codex CLI इस्तेमाल करते हैं, तो OpenAI का 77.3% number relevant है। अगर आप models की तुलना उसी third-party agent harness के अंदर कर रहे हैं, तो 64.7% Terminus-2 number cleaner comparison है।

यह distinction सीधे real usage से map होता है:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

अगर आपकी team अपना CLI agent बना रही है, तो किसी provider का best harness score spreadsheet में copy करके उसे model quality मत कहिए। इसे system quality मानिए: model, tool loop, memory, retry policy, patch mechanics, sandbox, और prompt contract।

Flow diagram जिसमें “developer task” agent harness में enter करता है, और model, terminal tools, filesystem state में split होता है,

Terminal-Bench 2.0, SWE-Bench से बेहतर क्या measure करता है

SWE-Bench अभी भी useful है, लेकिन Terminal-Bench एक अलग failure mode पकड़ता है। कोई model plausible patch generate कर सकता है और फिर भी shell के अंदर रहने में खराब हो सकता है।

Terminal-Bench tasks में QEMU में Linux kernel build करना, Git web server configure करना, दिए गए secret के लिए 7z hash crack करना, OpenSSL certificates generate करना, और data files reshape करना जैसी चीज़ें शामिल हैं। Terminal-Bench site version 2.0 को software engineering, machine learning, security, data science, और अन्य domains में 89 high-quality tasks के रूप में describe करती है (Terminal-Bench).

यह मायने रखता है क्योंकि CLI agents boring, महंगे तरीकों से fail होते हैं:

  • वे भूल जाते हैं कि filesystem में वे कहाँ हैं।
  • वे command run करते हैं, stderr ignore करते हैं, और गलत file patch कर देते हैं।
  • वे visible tests pass कर लेते हैं लेकिन hidden invariant miss कर देते हैं।
  • वे plan बनाने के बजाय explore करने में tokens जला देते हैं।
  • वे एक failed install या एक flaky test के बाद अटक जाते हैं।

इन tasks पर, Gemini 3.1 Pro का 68.5% Terminus-2 score impressive है क्योंकि यह सिर्फ़ code synthesis नहीं, बल्कि strong command-loop behavior suggest करता है। Claude Opus 4.6 का 65.4% इतना करीब है कि मैं सिर्फ़ benchmark delta के आधार पर mature Claude Code workflow migrate नहीं करूंगा। GPT-5.2 का 54.0% वह है जिसे मैं hard terminal automation के लिए avoid करूंगा, जब तक cost dominant constraint न हो या आपके पास इसके around बहुत strong harness न हो।

CLI coding agent के लिए model चुनना

मेरी practical ranking इस पर निर्भर करती है कि आप क्या खरीद रहे हैं।

अगर आप सबसे मजबूत shared-harness terminal score चाहते हैं, तो Gemini 3.1 Pro से शुरू करें। यह verified comparison row में lead करता है और 200k prompt tokens से कम standard per-token pricing पर Claude Opus 4.6 से सस्ता है। Catch: 200k से ऊपर large-repo prompts के लिए, Google की posted price $2/$12 से बढ़कर $4/$18 per 1M input/output tokens हो जाती है, इसलिए long-context agent runs को budgets और cache discipline चाहिए (Google AI).

अगर आप पहले से Claude-heavy workflow चलाते हैं, तो Claude Opus 4.6 मजबूत choice बना रहता है। Anthropic ने Opus 4.6 को 5 फरवरी, 2026 को release किया, stronger coding, longer agentic task performance, और developer platform के लिए beta में 1M-token context window के साथ (Anthropic). इसका 65.4% Terminus-2 score Gemini के करीब है। Price ज्यादा है: standard pricing में $5 input और $25 output per million tokens।

अगर आप सबसे अच्छा Codex-specific terminal number चाहते हैं, तो GPT-5.3-Codex अलग evaluation deserve करता है। इसका provider-reported 77.3% Terminal-Bench 2.0 score OpenAI के Codex setup से tied है, जबकि shared Terminus-2 row 64.7% है। यह contradiction नहीं है। यह warning label है।

अगर आप GPT-5.2 देख रहे हैं, तो case cost और general capability का है, peak terminal agency का नहीं। OpenAI GPT-5.2 को $1.75/$14 per million input/output tokens पर price करता है और कहता है कि यह API में xhigh reasoning effort support करता है (OpenAI). लेकिन shared Terminal-Bench 2.0 row पर, 54.0% एक बड़ा gap है।

Bottom line

Terminal-based coding agents के लिए, मैं models को इस तरह shortlist करूंगा: best shared-harness Terminal-Bench 2.0 performance के लिए Gemini 3.1 Pro, long-context coding reliability को value करने और पहले से Claude workflows पर भरोसा करने वाली teams के लिए Claude Opus 4.6, जब target runtime खुद Codex हो तब GPT-5.3-Codex, और GPT-5.2 सिर्फ़ तब जब price या API availability terminal success rate से ज्यादा मायने रखती हो।

मुख्य lesson methodological है। Terminal-Bench score कभी भी सिर्फ़ “model” नहीं होता। CLI agents बनाने वाले developers के लिए, harness product का हिस्सा है। दोनों numbers track करें: shared-harness score जो raw portability बताता है, और provider-harness score जो बताता है कि full native stack क्या कर सकता है।

जो readers इन models को hands-on try करना चाहते हैं, वे OpenAI-compatible API के साथ onehop पर Claude और अन्य models call कर सकते हैं: एक base_url बदलें, बाकी client लगभग वही रखें, और first-party routes के मुकाबले costs compare करें। New accounts को बिना card के $10 free credit मिलता है: onehop पर Claude और अन्य models call करें, या $10 free credit के लिए sign up करें.