GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 nel coding Aider Polyglot

La classifica ha un vincitore netto

GPT-5 high è all’88,0% su Aider Polyglot. Sono 198 casi risolti su 225, e non è una piccola oscillazione della leaderboard. Sullo stesso benchmark, Gemini 2.5 Pro Preview 06-05 con 32k thinking arriva all’83,1%, mentre Claude Opus 4 con 32k thinking arriva al 72,0%, secondo la leaderboard Polyglot ufficiale di Aider (Aider).

Questo divario conta perché Aider Polyglot non è un test giocattolo del tipo “scrivi una funzione Fibonacci”. Aider lo descrive come 225 esercizi di coding di Exercism in C++, Go, Java, JavaScript, Python e Rust (Aider). Il modello deve modificare codice, produrre un diff valido e far passare i test. È molto più vicino al lavoro quotidiano del coding agentico rispetto a un benchmark a scelta multipla in un singolo tentativo.

Il punto chiave: GPT-5 vince per pass rate grezzo e costo per correzione riuscita. Gemini è vicino sulla correttezza ed è molto migliore nella disciplina del formato di output. Claude Opus 4 risulta costoso e indietro in questo benchmark specifico, nonostante Anthropic lo abbia lanciato come modello di coding di punta a maggio 2025 (Anthropic).

Grafico a barre orizzontali che confronta il pass rate Aider Polyglot per GPT-5 high all’88,0%, Gemini 2.5 Pro Preview 06-05 32k thinki

Risultati grezzi: pass rate, costo, affidabilità del formato

Ecco la vista compatta. Questi sono risultati di esecuzioni Aider, non numeri di marketing dei vendor.

Modello	Data esecuzione Aider	Pass rate	Risolti / 225	Costo per esecuzione	Costo per caso risolto	Formato di modifica corretto	Formato di modifica
GPT-5 high	2025-08-23	88.0%	198	$29.08	$0.147	91.6%	diff
Gemini 2.5 Pro Preview 06-05, 32k thinking	2025-06-06	83.1%	187	$49.88	$0.267	99.6%	diff-fenced
Claude Opus 4 20250514, 32k thinking	2025-05-25	72.0%	162	$65.75	$0.406	97.3%	diff

I delta del pass rate sono semplici:

GPT-5 batte Gemini di 4,9 punti percentuali, ovvero 11 task risolti in più.
GPT-5 batte Claude Opus 4 di 16,0 punti, ovvero 36 task risolti in più.
Gemini batte Claude Opus 4 di 11,1 punti, ovvero 25 task risolti in più.

I delta di costo sono più netti. Il costo di esecuzione di GPT-5 è circa il 42% più basso di quello di Gemini e il 56% più basso di quello di Claude. Claude costa circa 2,26 volte GPT-5 per esecuzione, risolvendo però 36 casi in meno.

Questa è la parte scomoda per Claude qui. Opus 4 non è semplicemente indietro; è indietro pur costando di più.

Perché il divario di costo è così ampio

Il prezzo di listino dei token spiega gran parte della differenza.

OpenAI ha fissato il prezzo di GPT-5 a $1.25 per milione di token di input e $10 per milione di token di output quando ha lanciato la famiglia di modelli API (OpenAI). Anche il prezzo standard attuale di Google Gemini 2.5 Pro è $1.25 per l’input e $10 per l’output per milione di token per prompt fino a 200k token, con tariffe più alte sopra i 200k (Google AI). Claude Opus 4 di Anthropic aveva un prezzo di $15 per l’input e $75 per l’output per milione di token, e la pagina prezzi attuale di Anthropic ora indica Claude Opus 4 come ritirato tranne che su Vertex AI, pur riportando ancora quelle tariffe storiche (Anthropic Docs).

L’uso dei token rilevato da Aider è coerente con questa storia. L’esecuzione di Gemini ha usato circa 2,72M token di prompt e 4,65M token di completamento, che corrispondono quasi esattamente al costo di esecuzione riportato di $49.88 con pricing $1.25/$10. L’esecuzione di Claude ha usato meno token di completamento, circa 363k, ma il prezzo di output di Opus 4 pari a $75/M ha comunque spinto l’esecuzione a $65.75.

GPT-5 è il caso interessante. Ha usato circa 2,68M token di prompt e 2,62M token di completamento. Ha risolto più casi di Gemini emettendo circa 2,0M token di completamento in meno. OpenAI ha anche dichiarato che GPT-5 ha ottenuto l’88% su Aider Polyglot e lo ha descritto come un nuovo record nel post di lancio per sviluppatori (OpenAI).

Per gli sviluppatori, questa è la parte a cui prestare attenzione: il costo del benchmark non è solo il prezzo di listino. È il prezzo di listino moltiplicato per la tendenza del modello a pensare, riprovare, spiegare ed emettere diff grandi.

Grafico a dispersione con asse x costo per esecuzione Aider e asse y pass rate; GPT-5 high in alto a sinistra a $29.08 e 88,0%, Gemini 2

Formato di modifica: Gemini è l’operatore più ordinato

GPT-5 vince il benchmark, ma Gemini vince nella colonna della disciplina del formato.

Aider riporta Gemini 2.5 Pro Preview 06-05 al 99,6% di formato di modifica corretto, con una sola risposta malformata. Anche Claude Opus 4 è solido al 97,3%. GPT-5 high è più basso, al 91,6%, con 22 risposte malformate nell’intera esecuzione (Aider).

Sembra un piccolo dettaglio implementativo finché non esegui agenti in una repo reale. Un formato di modifica errato significa turni sprecati, applicazione della patch fallita o necessità per l’umano di salvare lo strumento. Se il tuo workflow è “il modello propone un diff, la CI controlla, l’agente itera”, l’affidabilità del formato fa parte dell’intelligenza.

Tuttavia, il punteggio di formato più basso di GPT-5 non gli ha impedito di vincere. Questo ci dice due cose. Primo, può recuperare o produrre abbastanza modifiche corrette nonostante più tentativi malformati. Secondo, il pass rate è in definitiva una metrica più severa della pulizia. Una patch sbagliata ma perfettamente formattata resta sbagliata.

Una lettura ragionevole: usa GPT-5 quando la parte più difficile è risolvere il bug. Usa Gemini quando la tua pipeline è molto sensibile alla formattazione rigorosa dei diff e puoi tollerare un piccolo calo nei casi risolti.

Versioni dei modelli e trappole sulle date

C’è una trappola in questo confronto: si tratta di voci storiche del benchmark, non di un’affermazione su ogni endpoint di produzione attuale al 17 giugno 2026.

Gemini 2.5 Pro Preview 06-05 è stato rilasciato il 5 giugno 2025, con adaptive thinking; Google ha poi rilasciato la versione stabile gemini-2.5-pro il 17 giugno 2025, e il suo changelog dice che i vecchi ID preview sono stati successivamente disattivati o reindirizzati attraverso il ciclo di vita del modello (Google AI changelog). Claude Opus 4 è stato lanciato il 22 maggio 2025, e la documentazione sui prezzi di Anthropic ora indica Claude Opus 4 come ritirato tranne che su Vertex AI (Anthropic Docs). GPT-5 è stato lanciato più tardi, il 7 agosto 2025, e il post API di OpenAI elenca gpt-5, gpt-5-mini e gpt-5-nano come le dimensioni API al lancio (OpenAI).

Quindi il confronto corretto è: “Come si sono comportati questi modelli specifici nelle esecuzioni registrate da Aider?” Non è: “Quale famiglia di modelli più recente dei vendor è la migliore oggi?”

Questa distinzione conta per gli acquisti e per le decisioni ingegneristiche. Se il tuo team sta scegliendo oggi un modello di coding, riesegui una piccola eval interna sul tuo stack. Includi la dimensione della tua repo, la latenza dei test, il formato di modifica preferito e la tua reale policy di retry.

Un harness minimale può essere noioso e utile:

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

Poi misura ticket risolti, applicazioni di patch fallite, passaggi CI, tempo wall-clock e dollari per fix mergiata.

Cosa sceglierei

Se dovessi scegliere un solo modello da questo snapshot Aider per un agente di coding, inizierei con GPT-5 high. Ha il miglior pass rate, il costo di esecuzione più basso tra i tre e il miglior costo per caso risolto. Il 91,6% di formato di modifica corretto è una macchia, ma non basta a cancellare un tasso di risoluzione dell’88,0%.

Gemini 2.5 Pro è la forte seconda scelta. Il suo pass rate dell’83,1% è abbastanza vicino da meritare seria considerazione da parte dei team con automazione rigorosa del formato delle patch. Il 99,6% di formato di modifica corretto è eccellente. Lo svantaggio è il costo in questa esecuzione: $49.88 sono molti per 11 casi risolti in meno rispetto a GPT-5.

Claude Opus 4 qui è difficile da vendere. Anthropic ha posizionato Opus 4 come un modello serio per coding e agenti, e al lancio ha ottenuto risultati solidi su altri benchmark di coding, incluse le affermazioni su SWE-bench e Terminal-bench nel post di rilascio di Anthropic (Anthropic). Ma su Aider Polyglot, questa specifica esecuzione di Opus 4 è sia più debole sia più costosa. A meno che il tuo workload interno non mostri punti di forza specifici di Claude, come gusto sul codebase, collaborazione su contesti lunghi o meno modifiche distruttive, i dati Aider non giustificano la scelta di Opus 4 rispetto a GPT-5 o Gemini per questo lavoro.

La regola pratica: non comprare “il miglior modello di coding” come claim di brand. Compra test superati per dollaro, con l’affidabilità delle modifiche come guardrail.

I lettori che vogliono provare questi modelli direttamente possono chiamarli tramite onehop con un’API compatibile con OpenAI cambiando un solo base_url. È più economico rispetto ai provider first-party, include $10 di credito gratuito per i nuovi account e non richiede carta: chiama Claude e altri modelli su onehop, oppure registrati per ottenere $10 di credito gratuito.

GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 nel coding Aider Polyglot

La classifica ha un vincitore netto

Risultati grezzi: pass rate, costo, affidabilità del formato

Perché il divario di costo è così ampio

Formato di modifica: Gemini è l’operatore più ordinato

Versioni dei modelli e trappole sulle date

Cosa sceglierei

Letture correlate

GPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro su SWE-Bench Pro

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 su Terminal-Bench 2.0

Chiamare Qwen3.7 Plus con l’OpenAI SDK tramite la modalità compatibile DashScope