GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 em codificação no Aider Polyglot

O placar tem um vencedor claro

O GPT-5 high está com 88,0% no Aider Polyglot. São 198 casos resolvidos de 225, e isso não é uma oscilação pequena de leaderboard. No mesmo benchmark, o Gemini 2.5 Pro Preview 06-05 com 32k de thinking chega a 83,1%, enquanto o Claude Opus 4 com 32k de thinking chega a 72,0%, segundo o leaderboard Polyglot oficial do Aider (Aider).

Essa diferença importa porque o Aider Polyglot não é um teste de brinquedo do tipo “escreva uma função de Fibonacci”. O Aider o descreve como 225 exercícios de programação do Exercism em C++, Go, Java, JavaScript, Python e Rust (Aider). O modelo precisa editar código, produzir um diff válido e fazer os testes passarem. Isso é muito mais próximo da rotina diária de codificação agêntica do que um benchmark de múltipla escolha em tentativa única.

A manchete: o GPT-5 vence em taxa bruta de aprovação e custo por correção bem-sucedida. O Gemini fica perto em corretude e é muito melhor em disciplina de formato de saída. O Claude Opus 4 parece caro e atrás neste benchmark específico, apesar de a Anthropic tê-lo lançado como um modelo de ponta para codificação em maio de 2025 (Anthropic).

Gráfico de barras horizontal comparando a taxa de aprovação no Aider Polyglot para GPT-5 high em 88,0%, Gemini 2.5 Pro Preview 06-05 32k thinki

Resultados brutos: taxa de aprovação, custo, confiabilidade de formato

Aqui está a visão compacta. Estes são resultados de execuções do Aider, não números de marketing dos fornecedores.

Modelo	Data da execução no Aider	Taxa de aprovação	Resolvidos / 225	Custo por execução	Custo por caso resolvido	Formato de edição correto	Formato de edição
GPT-5 high	2025-08-23	88,0%	198	US$ 29,08	US$ 0,147	91,6%	diff
Gemini 2.5 Pro Preview 06-05, 32k thinking	2025-06-06	83,1%	187	US$ 49,88	US$ 0,267	99,6%	diff-fenced
Claude Opus 4 20250514, 32k thinking	2025-05-25	72,0%	162	US$ 65,75	US$ 0,406	97,3%	diff

As diferenças de taxa de aprovação são simples:

O GPT-5 supera o Gemini por 4,9 pontos percentuais, ou 11 tarefas resolvidas a mais.
O GPT-5 supera o Claude Opus 4 por 16,0 pontos, ou 36 tarefas resolvidas a mais.
O Gemini supera o Claude Opus 4 por 11,1 pontos, ou 25 tarefas resolvidas a mais.

As diferenças de custo são mais acentuadas. O custo de execução do GPT-5 é cerca de 42% menor que o do Gemini e 56% menor que o do Claude. O Claude custa cerca de 2,26x o GPT-5 por execução, ao mesmo tempo que resolve 36 casos a menos.

Essa é a parte desconfortável para o Claude aqui. O Opus 4 não está apenas atrás; ele está atrás custando mais.

Por que a diferença de custo é tão grande

O preço de tabela por token explica boa parte disso.

A OpenAI precificou o GPT-5 a US$ 1,25 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída quando lançou a família de modelos de API (OpenAI). O preço padrão atual do Gemini 2.5 Pro, do Google, também é de US$ 1,25 de entrada e US$ 10 de saída por milhão de tokens para prompts de até 200k tokens, com tarifas mais altas acima de 200k (Google AI). O Claude Opus 4, da Anthropic, foi precificado a US$ 15 de entrada e US$ 75 de saída por milhão de tokens, e a página de preços atual da Anthropic agora marca o Claude Opus 4 como aposentado, exceto no Vertex AI, embora ainda liste essas tarifas históricas (Anthropic Docs).

O uso de tokens do Aider bate com essa história. A execução do Gemini usou cerca de 2,72M tokens de prompt e 4,65M tokens de conclusão, o que corresponde quase exatamente ao custo de execução informado de US$ 49,88 com a precificação de US$ 1,25/US$ 10. A execução do Claude usou menos tokens de conclusão, cerca de 363k, mas o preço de saída de US$ 75/M do Opus 4 ainda elevou a execução para US$ 65,75.

O GPT-5 é o caso interessante. Ele usou cerca de 2,68M tokens de prompt e 2,62M tokens de conclusão. Resolveu mais casos que o Gemini emitindo cerca de 2,0M tokens de conclusão a menos. A OpenAI também disse que o GPT-5 marcou 88% no Aider Polyglot e descreveu isso como um novo recorde em seu post de lançamento para desenvolvedores (OpenAI).

Para desenvolvedores, esta é a parte que importa: o custo de benchmark não é apenas preço de tabela. É o preço de tabela multiplicado pela tendência do modelo de pensar, tentar de novo, explicar e emitir diffs grandes.

Gráfico de dispersão com eixo x de custo por execução do Aider e eixo y de taxa de aprovação; GPT-5 high no canto superior esquerdo em US$ 29,08 e 88,0%, Gemini 2

Formato de edição: o Gemini é o operador mais organizado

O GPT-5 vence o benchmark, mas o Gemini vence a coluna de disciplina de formato.

O Aider relata o Gemini 2.5 Pro Preview 06-05 com 99,6% de formato de edição correto, com apenas uma resposta malformada. O Claude Opus 4 também é forte, com 97,3%. O GPT-5 high fica abaixo, com 91,6%, e 22 respostas malformadas ao longo da execução (Aider).

Isso parece um pequeno detalhe de implementação até você rodar agentes em um repositório real. Formato de edição ruim significa turnos desperdiçados, falha na aplicação de patches ou a necessidade de um humano resgatar a ferramenta. Se o seu fluxo é “modelo propõe diff, CI verifica, agente itera”, a confiabilidade de formato faz parte da inteligência.

Ainda assim, a pontuação menor de formato do GPT-5 não o impediu de vencer. Isso nos diz duas coisas. Primeiro, ele consegue se recuperar ou produzir edições corretas suficientes apesar de mais tentativas malformadas. Segundo, a taxa de aprovação é, no fim, uma métrica mais dura do que organização. Um patch errado perfeitamente formatado continua errado.

Uma leitura razoável: use o GPT-5 quando a parte mais difícil for resolver o bug. Use o Gemini quando seu pipeline for altamente sensível à formatação estrita de diffs e você puder tolerar uma pequena queda em casos resolvidos.

Versões de modelos e armadilhas de data

Há uma armadilha nesta comparação: estas são entradas históricas de benchmark, não uma afirmação sobre todos os endpoints de produção atuais em 17 de junho de 2026.

O Gemini 2.5 Pro Preview 06-05 foi lançado em 5 de junho de 2025, com thinking adaptativo; depois, o Google lançou o gemini-2.5-pro estável em 17 de junho de 2025, e seu changelog diz que os IDs antigos de preview foram posteriormente desativados ou redirecionados pelo ciclo de vida do modelo (Google AI changelog). O Claude Opus 4 foi lançado em 22 de maio de 2025, e a documentação de preços da Anthropic agora marca o Claude Opus 4 como aposentado, exceto no Vertex AI (Anthropic Docs). O GPT-5 foi lançado depois, em 7 de agosto de 2025, e o post de API da OpenAI lista gpt-5, gpt-5-mini e gpt-5-nano como os tamanhos de API no lançamento (OpenAI).

Portanto, a comparação justa é: “Como esses modelos nomeados se saíram nas execuções registradas pelo Aider?” Não é: “Qual família de modelos mais nova de qual fornecedor é a melhor hoje?”

Essa distinção importa para compras e para decisões de engenharia. Se sua equipe está escolhendo um modelo de codificação hoje, rode novamente uma pequena avaliação interna na sua própria stack. Inclua o tamanho do seu repositório, a latência dos seus testes, seu formato de edição preferido e sua política real de novas tentativas.

Um harness mínimo pode ser tedioso e útil:

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

Depois meça tickets resolvidos, falhas na aplicação de patches, aprovações no CI, tempo decorrido e dólares por correção mergeada.

O que eu escolheria

Se eu tivesse que escolher um modelo deste snapshot do Aider para um agente de codificação, eu começaria com o GPT-5 high. Ele tem a melhor taxa de aprovação, o menor custo de execução entre os três e o melhor custo por caso resolvido. Os 91,6% de formato de edição correto são um defeito, mas não o suficiente para apagar uma taxa de resolução de 88,0%.

O Gemini 2.5 Pro é a forte segunda opção. Sua taxa de aprovação de 83,1% é próxima o bastante para que equipes com automação rígida de formato de patch o levem a sério. A taxa de 99,6% de formato de edição correto é excelente. O lado negativo é o custo nesta execução: US$ 49,88 é muito a pagar por 11 casos resolvidos a menos que o GPT-5.

O Claude Opus 4 é a venda difícil aqui. A Anthropic posicionou o Opus 4 como um modelo sério de codificação e agentes, e ele foi bem em outros benchmarks de codificação no lançamento, incluindo alegações sobre SWE-bench e Terminal-bench no post de lançamento da Anthropic (Anthropic). Mas no Aider Polyglot, esta execução específica do Opus 4 é mais fraca e mais cara. A menos que sua carga de trabalho interna mostre pontos fortes específicos do Claude, como gosto por codebase, colaboração com contexto longo ou menos edições destrutivas, os dados do Aider não justificam escolher o Opus 4 em vez do GPT-5 ou do Gemini para este trabalho.

A regra prática: não compre “melhor modelo de codificação” como uma afirmação de marca. Compre testes aprovados por dólar, com confiabilidade de edição como guardrail.

Leitores que quiserem testar esses modelos na prática podem chamá-los pela onehop com uma API compatível com OpenAI alterando um base_url. É mais barato que usar o provedor diretamente, inclui US$ 10 em crédito grátis para novas contas e não exige cartão: chame Claude e outros modelos na onehop, ou cadastre-se para receber US$ 10 em crédito grátis.

GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 em codificação no Aider Polyglot

O placar tem um vencedor claro

Resultados brutos: taxa de aprovação, custo, confiabilidade de formato

Por que a diferença de custo é tão grande

Formato de edição: o Gemini é o operador mais organizado

Versões de modelos e armadilhas de data

O que eu escolheria

Leituras relacionadas

GPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro no SWE-Bench Pro

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 no Terminal-Bench 2.0

Chame o Qwen3.7 Plus com o SDK da OpenAI via modo compatível do DashScope