GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 nel coding Aider Polyglot
17 giugno 2026 · 23 min di lettura · Claude / GPT / Gemini

La classifica ha un vincitore netto
GPT-5 high è all’88,0% su Aider Polyglot. Sono 198 casi risolti su 225, e non è una piccola oscillazione della leaderboard. Sullo stesso benchmark, Gemini 2.5 Pro Preview 06-05 con 32k thinking arriva all’83,1%, mentre Claude Opus 4 con 32k thinking arriva al 72,0%, secondo la leaderboard Polyglot ufficiale di Aider (Aider).
Questo divario conta perché Aider Polyglot non è un test giocattolo del tipo “scrivi una funzione Fibonacci”. Aider lo descrive come 225 esercizi di coding di Exercism in C++, Go, Java, JavaScript, Python e Rust (Aider). Il modello deve modificare codice, produrre un diff valido e far passare i test. È molto più vicino al lavoro quotidiano del coding agentico rispetto a un benchmark a scelta multipla in un singolo tentativo.
Il punto chiave: GPT-5 vince per pass rate grezzo e costo per correzione riuscita. Gemini è vicino sulla correttezza ed è molto migliore nella disciplina del formato di output. Claude Opus 4 risulta costoso e indietro in questo benchmark specifico, nonostante Anthropic lo abbia lanciato come modello di coding di punta a maggio 2025 (Anthropic).

Risultati grezzi: pass rate, costo, affidabilità del formato
Ecco la vista compatta. Questi sono risultati di esecuzioni Aider, non numeri di marketing dei vendor.
| Modello | Data esecuzione Aider | Pass rate | Risolti / 225 | Costo per esecuzione | Costo per caso risolto | Formato di modifica corretto | Formato di modifica |
|---|---|---|---|---|---|---|---|
| GPT-5 high | 2025-08-23 | 88.0% | 198 | $29.08 | $0.147 | 91.6% | diff |
| Gemini 2.5 Pro Preview 06-05, 32k thinking | 2025-06-06 | 83.1% | 187 | $49.88 | $0.267 | 99.6% | diff-fenced |
| Claude Opus 4 20250514, 32k thinking | 2025-05-25 | 72.0% | 162 | $65.75 | $0.406 | 97.3% | diff |
I delta del pass rate sono semplici:
- GPT-5 batte Gemini di 4,9 punti percentuali, ovvero 11 task risolti in più.
- GPT-5 batte Claude Opus 4 di 16,0 punti, ovvero 36 task risolti in più.
- Gemini batte Claude Opus 4 di 11,1 punti, ovvero 25 task risolti in più.
I delta di costo sono più netti. Il costo di esecuzione di GPT-5 è circa il 42% più basso di quello di Gemini e il 56% più basso di quello di Claude. Claude costa circa 2,26 volte GPT-5 per esecuzione, risolvendo però 36 casi in meno.
Questa è la parte scomoda per Claude qui. Opus 4 non è semplicemente indietro; è indietro pur costando di più.
Perché il divario di costo è così ampio
Il prezzo di listino dei token spiega gran parte della differenza.
OpenAI ha fissato il prezzo di GPT-5 a $1.25 per milione di token di input e $10 per milione di token di output quando ha lanciato la famiglia di modelli API (OpenAI). Anche il prezzo standard attuale di Google Gemini 2.5 Pro è $1.25 per l’input e $10 per l’output per milione di token per prompt fino a 200k token, con tariffe più alte sopra i 200k (Google AI). Claude Opus 4 di Anthropic aveva un prezzo di $15 per l’input e $75 per l’output per milione di token, e la pagina prezzi attuale di Anthropic ora indica Claude Opus 4 come ritirato tranne che su Vertex AI, pur riportando ancora quelle tariffe storiche (Anthropic Docs).
L’uso dei token rilevato da Aider è coerente con questa storia. L’esecuzione di Gemini ha usato circa 2,72M token di prompt e 4,65M token di completamento, che corrispondono quasi esattamente al costo di esecuzione riportato di $49.88 con pricing $1.25/$10. L’esecuzione di Claude ha usato meno token di completamento, circa 363k, ma il prezzo di output di Opus 4 pari a $75/M ha comunque spinto l’esecuzione a $65.75.
GPT-5 è il caso interessante. Ha usato circa 2,68M token di prompt e 2,62M token di completamento. Ha risolto più casi di Gemini emettendo circa 2,0M token di completamento in meno. OpenAI ha anche dichiarato che GPT-5 ha ottenuto l’88% su Aider Polyglot e lo ha descritto come un nuovo record nel post di lancio per sviluppatori (OpenAI).
Per gli sviluppatori, questa è la parte a cui prestare attenzione: il costo del benchmark non è solo il prezzo di listino. È il prezzo di listino moltiplicato per la tendenza del modello a pensare, riprovare, spiegare ed emettere diff grandi.

Formato di modifica: Gemini è l’operatore più ordinato
GPT-5 vince il benchmark, ma Gemini vince nella colonna della disciplina del formato.
Aider riporta Gemini 2.5 Pro Preview 06-05 al 99,6% di formato di modifica corretto, con una sola risposta malformata. Anche Claude Opus 4 è solido al 97,3%. GPT-5 high è più basso, al 91,6%, con 22 risposte malformate nell’intera esecuzione (Aider).
Sembra un piccolo dettaglio implementativo finché non esegui agenti in una repo reale. Un formato di modifica errato significa turni sprecati, applicazione della patch fallita o necessità per l’umano di salvare lo strumento. Se il tuo workflow è “il modello propone un diff, la CI controlla, l’agente itera”, l’affidabilità del formato fa parte dell’intelligenza.
Tuttavia, il punteggio di formato più basso di GPT-5 non gli ha impedito di vincere. Questo ci dice due cose. Primo, può recuperare o produrre abbastanza modifiche corrette nonostante più tentativi malformati. Secondo, il pass rate è in definitiva una metrica più severa della pulizia. Una patch sbagliata ma perfettamente formattata resta sbagliata.
Una lettura ragionevole: usa GPT-5 quando la parte più difficile è risolvere il bug. Usa Gemini quando la tua pipeline è molto sensibile alla formattazione rigorosa dei diff e puoi tollerare un piccolo calo nei casi risolti.
Versioni dei modelli e trappole sulle date
C’è una trappola in questo confronto: si tratta di voci storiche del benchmark, non di un’affermazione su ogni endpoint di produzione attuale al 17 giugno 2026.
Gemini 2.5 Pro Preview 06-05 è stato rilasciato il 5 giugno 2025, con adaptive thinking; Google ha poi rilasciato la versione stabile gemini-2.5-pro il 17 giugno 2025, e il suo changelog dice che i vecchi ID preview sono stati successivamente disattivati o reindirizzati attraverso il ciclo di vita del modello (Google AI changelog). Claude Opus 4 è stato lanciato il 22 maggio 2025, e la documentazione sui prezzi di Anthropic ora indica Claude Opus 4 come ritirato tranne che su Vertex AI (Anthropic Docs). GPT-5 è stato lanciato più tardi, il 7 agosto 2025, e il post API di OpenAI elenca gpt-5, gpt-5-mini e gpt-5-nano come le dimensioni API al lancio (OpenAI).
Quindi il confronto corretto è: “Come si sono comportati questi modelli specifici nelle esecuzioni registrate da Aider?” Non è: “Quale famiglia di modelli più recente dei vendor è la migliore oggi?”
Questa distinzione conta per gli acquisti e per le decisioni ingegneristiche. Se il tuo team sta scegliendo oggi un modello di coding, riesegui una piccola eval interna sul tuo stack. Includi la dimensione della tua repo, la latenza dei test, il formato di modifica preferito e la tua reale policy di retry.
Un harness minimale può essere noioso e utile:
aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514
Poi misura ticket risolti, applicazioni di patch fallite, passaggi CI, tempo wall-clock e dollari per fix mergiata.
Cosa sceglierei
Se dovessi scegliere un solo modello da questo snapshot Aider per un agente di coding, inizierei con GPT-5 high. Ha il miglior pass rate, il costo di esecuzione più basso tra i tre e il miglior costo per caso risolto. Il 91,6% di formato di modifica corretto è una macchia, ma non basta a cancellare un tasso di risoluzione dell’88,0%.
Gemini 2.5 Pro è la forte seconda scelta. Il suo pass rate dell’83,1% è abbastanza vicino da meritare seria considerazione da parte dei team con automazione rigorosa del formato delle patch. Il 99,6% di formato di modifica corretto è eccellente. Lo svantaggio è il costo in questa esecuzione: $49.88 sono molti per 11 casi risolti in meno rispetto a GPT-5.
Claude Opus 4 qui è difficile da vendere. Anthropic ha posizionato Opus 4 come un modello serio per coding e agenti, e al lancio ha ottenuto risultati solidi su altri benchmark di coding, incluse le affermazioni su SWE-bench e Terminal-bench nel post di rilascio di Anthropic (Anthropic). Ma su Aider Polyglot, questa specifica esecuzione di Opus 4 è sia più debole sia più costosa. A meno che il tuo workload interno non mostri punti di forza specifici di Claude, come gusto sul codebase, collaborazione su contesti lunghi o meno modifiche distruttive, i dati Aider non giustificano la scelta di Opus 4 rispetto a GPT-5 o Gemini per questo lavoro.
La regola pratica: non comprare “il miglior modello di coding” come claim di brand. Compra test superati per dollaro, con l’affidabilità delle modifiche come guardrail.
I lettori che vogliono provare questi modelli direttamente possono chiamarli tramite onehop con un’API compatibile con OpenAI cambiando un solo base_url. È più economico rispetto ai provider first-party, include $10 di credito gratuito per i nuovi account e non richiede carta: chiama Claude e altri modelli su onehop, oppure registrati per ottenere $10 di credito gratuito.
Letture correlate

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 su Terminal-Bench 2.0
Gemini 3.1 Pro guida l’harness condiviso di Terminal-Bench 2.0, ma la scelta dell’harness cambia il quadro del coding via CLI.
16 giugno 2026 · 23 min di lettura

Usare Groq GPT-OSS 120B con l’SDK OpenAI: URL base, prezzi e caching
Cambia l’URL base dell’SDK OpenAI per eseguire GPT-OSS 120B su Groq, stimare i costi dei token in cache ed evitare sorprese.
17 giugno 2026 · 26 min di lettura

Usare Grok Build in Warp con un abbonamento SuperGrok o X Premium
xAI consente agli utenti Warp di collegare Grok o X Premium ed eseguire grok-build-0.1 nei workflow agentici da terminale.
16 giugno 2026 · 23 min di lettura