Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 su Terminal-Bench 2.0

Il numero che conta: 68,5%

La model card di Google DeepMind per Gemini 3.1 Pro colloca Gemini 3.1 Pro al 68,5% su Terminal-Bench 2.0 usando l’harness Terminus-2. Nella stessa tabella, Claude Opus 4.6 ottiene 65,4%, GPT-5.3-Codex 64,7% e GPT-5.2 54,0% sotto la stessa riga di harness (Google DeepMind).

È la riga di confronto diretto più pulita nel materiale pubblico attuale. Dice questo: se esegui questi modelli tramite la stessa configurazione Terminus-2 dichiarata, Gemini 3.1 Pro è avanti, Claude Opus 4.6 è vicino, GPT-5.3-Codex è sostanzialmente nella stessa fascia, e GPT-5.2 resta molto indietro.

Ma qui c’è una trappola. Terminal-Bench non è solo un benchmark di modelli. È un benchmark di modello più agente più harness.

La pagina di Terminal-Bench 2.0 di Epoch AI descrive il benchmark come attività in cui gli agenti devono operare dentro un terminale reale: capire il filesystem, usare programmi installati, ragionare sui processi in esecuzione e completare attività senza che ogni comando venga esplicitato. Dice anche che i punteggi sono riportati per combinazioni modello-agente, perché l’agente può modificare materialmente le prestazioni (Epoch AI). Quella singola frase dovrebbe cambiare il modo in cui leggi ogni leaderboard.

Grafico a barre orizzontali su sfondo crema che confronta i punteggi Terminal-Bench 2.0 Terminus-2: Gemini 3.1 Pro 68,5, Claude Opu

La tabella benchmark che gli sviluppatori dovrebbero davvero usare

Ecco il taglio utile, limitato ai numeri che ho potuto verificare da fonti primarie.

Modello	Punteggio Terminal-Bench 2.0	Harness / contesto della fonte	Prezzo API, se rilevante
Gemini 3.1 Pro	68,5%	Harness Terminus-2 nella model card di Google	2$/12$ per 1M di token di input/output per prompt ≤200k; 4$/18$ oltre 200k (Google AI)
Claude Opus 4.6	65,4%	Harness Terminus-2 nella model card di Google; leaderboard pubblica secondo la nota metodologica di Google	5$/25$ per 1M di token di input/output (Anthropic)
GPT-5.3-Codex	64,7%	Harness Terminus-2 nella model card di Google	La run del provider OpenAI riporta 77,3% usando Codex CLI, non lo stesso harness (OpenAI)
GPT-5.2	54,0%	Harness Terminus-2 nella model card di Google	1,75$/14$ per 1M di token di input/output (OpenAI)

L’ordinamento sotto Terminus-2 è chiaro: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

Il punto ingegneristico più importante è meno ordinato. Il PDF metodologico di Google afferma che i punteggi di Gemini sono calcolati internamente, mentre i numeri dei modelli non Gemini sono generalmente riportati dai provider, salvo diversa indicazione. Per Terminal-Bench 2.0 in particolare, dice che Gemini 3.1 Pro è calcolato internamente, gli altri modelli provengono dalla leaderboard pubblica, e i risultati sono riportati sia per l’harness predefinito Terminus-2 sia, dove applicabile, per altri migliori harness auto-riportati (PDF metodologico di Google DeepMind).

Quindi la lettura corretta non è “Gemini straccia tutti”. È: Gemini guida il confronto Terminus-2 condiviso di 3,1 punti percentuali su Claude e di 3,8 punti su GPT-5.3-Codex. GPT-5.2 è il chiaro ritardatario in questa configurazione.

Perché GPT-5.3-Codex ha due storie diverse

La riga più confusa è GPT-5.3-Codex.

La model card di Google gli attribuisce 64,7% sull’harness Terminus-2. Una riga sotto, la stessa card elenca i numeri di “altro miglior harness auto-riportato”: GPT-5.2 al 62,2% usando Codex, e GPT-5.3-Codex al 77,3% usando Codex (Google DeepMind). Anche l’annuncio di OpenAI per GPT-5.3-Codex riporta 77,3% su Terminal-Bench 2.0, con effort di ragionamento xhigh, e inquadra esplicitamente il modello come un modello per agenti di coding per Codex (OpenAI).

Entrambe le cose possono essere vere.

Un agente CLI per il coding non è una chat completion stateless. L’harness decide come vengono esposti i file, come vengono eseguiti i comandi, come vengono applicate le patch, come viene riassunto lo stato, quante volte il modello può recuperare da un percorso sbagliato e, a volte, come viene selezionato l’effort di ragionamento. Se usi Codex CLI, il numero 77,3% di OpenAI è rilevante. Se confronti modelli dentro lo stesso harness agente di terze parti, il 64,7% su Terminus-2 è il confronto più pulito.

Questa distinzione si mappa direttamente sull’uso reale:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

Se il tuo team sta costruendo il proprio agente CLI, non copiare il miglior punteggio di harness di un provider in un foglio di calcolo chiamandolo qualità del modello. Trattalo come qualità del sistema: modello, loop degli strumenti, memoria, policy di retry, meccaniche di patch, sandbox e contratto di prompt.

Diagramma di flusso che mostra un “task sviluppatore” entrare in un harness agente, dividendosi in modello, strumenti terminale, stato del filesystem,

Cosa misura Terminal-Bench 2.0 meglio di SWE-Bench

SWE-Bench è ancora utile, ma Terminal-Bench intercetta una modalità di fallimento diversa. Un modello può generare una patch plausibile ed essere comunque scarso nel vivere dentro una shell.

Le attività di Terminal-Bench includono cose come compilare un kernel Linux in QEMU, configurare un server web Git, craccare un hash 7z per un segreto fornito, generare certificati OpenSSL e rimodellare file di dati. Il sito di Terminal-Bench descrive la versione 2.0 come composta da 89 attività di alta qualità tra software engineering, machine learning, security, data science e altro (Terminal-Bench).

Questo conta perché gli agenti CLI falliscono in modi noiosi e costosi:

Dimenticano dove si trovano nel filesystem.
Eseguono un comando, ignorano stderr e patchano il file sbagliato.
Superano i test visibili ma mancano l’invariante nascosta.
Bruciano token esplorando invece di formulare un piano.
Si bloccano dopo una singola installazione fallita o un singolo test flaky.

Su queste attività, il punteggio Terminus-2 di Gemini 3.1 Pro al 68,5% è notevole perché suggerisce un forte comportamento nel loop dei comandi, non solo sintesi di codice. Claude Opus 4.6 al 65,4% è abbastanza vicino da non farmi migrare un workflow Claude Code maturo solo per il delta del benchmark. GPT-5.2 al 54,0% è quello che eviterei per automazione terminale difficile, a meno che il costo non sia il vincolo dominante o tu non abbia un harness molto solido attorno.

Scegliere un modello per un agente CLI di coding

La mia classifica pratica dipende da ciò che stai comprando.

Se vuoi il punteggio terminale su harness condiviso più forte, parti da Gemini 3.1 Pro. Guida la riga di confronto verificata ed è più economico di Claude Opus 4.6 sul pricing standard per token sotto i 200k token di prompt. Il punto critico: per prompt su grandi repo oltre 200k, il prezzo pubblicato da Google passa da 2$/12$ a 4$/18$ per 1M di token di input/output, quindi le run agentiche a lungo contesto richiedono budget e disciplina di cache (Google AI).

Se hai già un workflow fortemente basato su Claude, Claude Opus 4.6 resta una scelta solida. Anthropic ha rilasciato Opus 4.6 il 5 febbraio 2026, con coding più forte, prestazioni migliori su task agentici lunghi e una context window da 1M di token in beta per la piattaforma sviluppatori (Anthropic). Il suo punteggio Terminus-2 del 65,4% è vicino a Gemini. Il prezzo è più alto: 5$ input e 25$ output per milione di token nel pricing standard.

Se vuoi il miglior numero terminale specifico per Codex, GPT-5.3-Codex merita una valutazione separata. Il suo punteggio Terminal-Bench 2.0 del 77,3% riportato dal provider è legato alla configurazione Codex di OpenAI, mentre la riga Terminus-2 condivisa è 64,7%. Non è una contraddizione. È un’etichetta di avvertimento.

Se stai guardando GPT-5.2, il caso è costo e capacità generale, non agency terminale di picco. OpenAI prezza GPT-5.2 a 1,75$/14$ per milione di token di input/output e afferma che supporta l’effort di ragionamento xhigh nell’API (OpenAI). Ma sulla riga condivisa di Terminal-Bench 2.0, il 54,0% è un gap ampio.

In sintesi

Per agenti di coding basati su terminale, farei una shortlist così: Gemini 3.1 Pro per le migliori prestazioni Terminal-Bench 2.0 su harness condiviso, Claude Opus 4.6 per i team che apprezzano affidabilità nel coding a lungo contesto e si fidano già dei workflow Claude, GPT-5.3-Codex quando il runtime target è Codex stesso, e GPT-5.2 solo quando prezzo o disponibilità API contano più del tasso di successo nel terminale.

La lezione principale è metodologica. Un punteggio Terminal-Bench non è mai solo “il modello”. Per gli sviluppatori che costruiscono agenti CLI, l’harness è parte del prodotto. Traccia entrambi i numeri: il punteggio su harness condiviso, che ti dice la portabilità grezza, e il punteggio su harness del provider, che ti dice cosa può fare lo stack nativo completo.

I lettori che vogliono provare questi modelli direttamente possono chiamare Claude e altri modelli su onehop con un’API compatibile con OpenAI: cambia un solo base_url, mantieni quasi invariato il resto del client e confronta i costi rispetto alle route first-party. I nuovi account ricevono 10$ di credito gratuito senza carta richiesta: chiama Claude e altri modelli su onehop, oppure registrati per 10$ di credito gratuito.

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 su Terminal-Bench 2.0

Il numero che conta: 68,5%

La tabella benchmark che gli sviluppatori dovrebbero davvero usare

Perché GPT-5.3-Codex ha due storie diverse

Cosa misura Terminal-Bench 2.0 meglio di SWE-Bench

Scegliere un modello per un agente CLI di coding

In sintesi

Letture correlate

GPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro su SWE-Bench Pro

GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 nel coding Aider Polyglot

Chiamare Qwen3.7 Plus con l’OpenAI SDK tramite la modalità compatibile DashScope