GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 em codificação no Aider Polyglot
17 de junho de 2026 · 23 min de leitura · Claude / GPT / Gemini

O placar tem um vencedor claro
O GPT-5 high está com 88,0% no Aider Polyglot. São 198 casos resolvidos de 225, e isso não é uma oscilação pequena de leaderboard. No mesmo benchmark, o Gemini 2.5 Pro Preview 06-05 com 32k de thinking chega a 83,1%, enquanto o Claude Opus 4 com 32k de thinking chega a 72,0%, segundo o leaderboard Polyglot oficial do Aider (Aider).
Essa diferença importa porque o Aider Polyglot não é um teste de brinquedo do tipo “escreva uma função de Fibonacci”. O Aider o descreve como 225 exercícios de programação do Exercism em C++, Go, Java, JavaScript, Python e Rust (Aider). O modelo precisa editar código, produzir um diff válido e fazer os testes passarem. Isso é muito mais próximo da rotina diária de codificação agêntica do que um benchmark de múltipla escolha em tentativa única.
A manchete: o GPT-5 vence em taxa bruta de aprovação e custo por correção bem-sucedida. O Gemini fica perto em corretude e é muito melhor em disciplina de formato de saída. O Claude Opus 4 parece caro e atrás neste benchmark específico, apesar de a Anthropic tê-lo lançado como um modelo de ponta para codificação em maio de 2025 (Anthropic).

Resultados brutos: taxa de aprovação, custo, confiabilidade de formato
Aqui está a visão compacta. Estes são resultados de execuções do Aider, não números de marketing dos fornecedores.
| Modelo | Data da execução no Aider | Taxa de aprovação | Resolvidos / 225 | Custo por execução | Custo por caso resolvido | Formato de edição correto | Formato de edição |
|---|---|---|---|---|---|---|---|
| GPT-5 high | 2025-08-23 | 88,0% | 198 | US$ 29,08 | US$ 0,147 | 91,6% | diff |
| Gemini 2.5 Pro Preview 06-05, 32k thinking | 2025-06-06 | 83,1% | 187 | US$ 49,88 | US$ 0,267 | 99,6% | diff-fenced |
| Claude Opus 4 20250514, 32k thinking | 2025-05-25 | 72,0% | 162 | US$ 65,75 | US$ 0,406 | 97,3% | diff |
As diferenças de taxa de aprovação são simples:
- O GPT-5 supera o Gemini por 4,9 pontos percentuais, ou 11 tarefas resolvidas a mais.
- O GPT-5 supera o Claude Opus 4 por 16,0 pontos, ou 36 tarefas resolvidas a mais.
- O Gemini supera o Claude Opus 4 por 11,1 pontos, ou 25 tarefas resolvidas a mais.
As diferenças de custo são mais acentuadas. O custo de execução do GPT-5 é cerca de 42% menor que o do Gemini e 56% menor que o do Claude. O Claude custa cerca de 2,26x o GPT-5 por execução, ao mesmo tempo que resolve 36 casos a menos.
Essa é a parte desconfortável para o Claude aqui. O Opus 4 não está apenas atrás; ele está atrás custando mais.
Por que a diferença de custo é tão grande
O preço de tabela por token explica boa parte disso.
A OpenAI precificou o GPT-5 a US$ 1,25 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída quando lançou a família de modelos de API (OpenAI). O preço padrão atual do Gemini 2.5 Pro, do Google, também é de US$ 1,25 de entrada e US$ 10 de saída por milhão de tokens para prompts de até 200k tokens, com tarifas mais altas acima de 200k (Google AI). O Claude Opus 4, da Anthropic, foi precificado a US$ 15 de entrada e US$ 75 de saída por milhão de tokens, e a página de preços atual da Anthropic agora marca o Claude Opus 4 como aposentado, exceto no Vertex AI, embora ainda liste essas tarifas históricas (Anthropic Docs).
O uso de tokens do Aider bate com essa história. A execução do Gemini usou cerca de 2,72M tokens de prompt e 4,65M tokens de conclusão, o que corresponde quase exatamente ao custo de execução informado de US$ 49,88 com a precificação de US$ 1,25/US$ 10. A execução do Claude usou menos tokens de conclusão, cerca de 363k, mas o preço de saída de US$ 75/M do Opus 4 ainda elevou a execução para US$ 65,75.
O GPT-5 é o caso interessante. Ele usou cerca de 2,68M tokens de prompt e 2,62M tokens de conclusão. Resolveu mais casos que o Gemini emitindo cerca de 2,0M tokens de conclusão a menos. A OpenAI também disse que o GPT-5 marcou 88% no Aider Polyglot e descreveu isso como um novo recorde em seu post de lançamento para desenvolvedores (OpenAI).
Para desenvolvedores, esta é a parte que importa: o custo de benchmark não é apenas preço de tabela. É o preço de tabela multiplicado pela tendência do modelo de pensar, tentar de novo, explicar e emitir diffs grandes.

Formato de edição: o Gemini é o operador mais organizado
O GPT-5 vence o benchmark, mas o Gemini vence a coluna de disciplina de formato.
O Aider relata o Gemini 2.5 Pro Preview 06-05 com 99,6% de formato de edição correto, com apenas uma resposta malformada. O Claude Opus 4 também é forte, com 97,3%. O GPT-5 high fica abaixo, com 91,6%, e 22 respostas malformadas ao longo da execução (Aider).
Isso parece um pequeno detalhe de implementação até você rodar agentes em um repositório real. Formato de edição ruim significa turnos desperdiçados, falha na aplicação de patches ou a necessidade de um humano resgatar a ferramenta. Se o seu fluxo é “modelo propõe diff, CI verifica, agente itera”, a confiabilidade de formato faz parte da inteligência.
Ainda assim, a pontuação menor de formato do GPT-5 não o impediu de vencer. Isso nos diz duas coisas. Primeiro, ele consegue se recuperar ou produzir edições corretas suficientes apesar de mais tentativas malformadas. Segundo, a taxa de aprovação é, no fim, uma métrica mais dura do que organização. Um patch errado perfeitamente formatado continua errado.
Uma leitura razoável: use o GPT-5 quando a parte mais difícil for resolver o bug. Use o Gemini quando seu pipeline for altamente sensível à formatação estrita de diffs e você puder tolerar uma pequena queda em casos resolvidos.
Versões de modelos e armadilhas de data
Há uma armadilha nesta comparação: estas são entradas históricas de benchmark, não uma afirmação sobre todos os endpoints de produção atuais em 17 de junho de 2026.
O Gemini 2.5 Pro Preview 06-05 foi lançado em 5 de junho de 2025, com thinking adaptativo; depois, o Google lançou o gemini-2.5-pro estável em 17 de junho de 2025, e seu changelog diz que os IDs antigos de preview foram posteriormente desativados ou redirecionados pelo ciclo de vida do modelo (Google AI changelog). O Claude Opus 4 foi lançado em 22 de maio de 2025, e a documentação de preços da Anthropic agora marca o Claude Opus 4 como aposentado, exceto no Vertex AI (Anthropic Docs). O GPT-5 foi lançado depois, em 7 de agosto de 2025, e o post de API da OpenAI lista gpt-5, gpt-5-mini e gpt-5-nano como os tamanhos de API no lançamento (OpenAI).
Portanto, a comparação justa é: “Como esses modelos nomeados se saíram nas execuções registradas pelo Aider?” Não é: “Qual família de modelos mais nova de qual fornecedor é a melhor hoje?”
Essa distinção importa para compras e para decisões de engenharia. Se sua equipe está escolhendo um modelo de codificação hoje, rode novamente uma pequena avaliação interna na sua própria stack. Inclua o tamanho do seu repositório, a latência dos seus testes, seu formato de edição preferido e sua política real de novas tentativas.
Um harness mínimo pode ser tedioso e útil:
aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514
Depois meça tickets resolvidos, falhas na aplicação de patches, aprovações no CI, tempo decorrido e dólares por correção mergeada.
O que eu escolheria
Se eu tivesse que escolher um modelo deste snapshot do Aider para um agente de codificação, eu começaria com o GPT-5 high. Ele tem a melhor taxa de aprovação, o menor custo de execução entre os três e o melhor custo por caso resolvido. Os 91,6% de formato de edição correto são um defeito, mas não o suficiente para apagar uma taxa de resolução de 88,0%.
O Gemini 2.5 Pro é a forte segunda opção. Sua taxa de aprovação de 83,1% é próxima o bastante para que equipes com automação rígida de formato de patch o levem a sério. A taxa de 99,6% de formato de edição correto é excelente. O lado negativo é o custo nesta execução: US$ 49,88 é muito a pagar por 11 casos resolvidos a menos que o GPT-5.
O Claude Opus 4 é a venda difícil aqui. A Anthropic posicionou o Opus 4 como um modelo sério de codificação e agentes, e ele foi bem em outros benchmarks de codificação no lançamento, incluindo alegações sobre SWE-bench e Terminal-bench no post de lançamento da Anthropic (Anthropic). Mas no Aider Polyglot, esta execução específica do Opus 4 é mais fraca e mais cara. A menos que sua carga de trabalho interna mostre pontos fortes específicos do Claude, como gosto por codebase, colaboração com contexto longo ou menos edições destrutivas, os dados do Aider não justificam escolher o Opus 4 em vez do GPT-5 ou do Gemini para este trabalho.
A regra prática: não compre “melhor modelo de codificação” como uma afirmação de marca. Compre testes aprovados por dólar, com confiabilidade de edição como guardrail.
Leitores que quiserem testar esses modelos na prática podem chamá-los pela onehop com uma API compatível com OpenAI alterando um base_url. É mais barato que usar o provedor diretamente, inclui US$ 10 em crédito grátis para novas contas e não exige cartão: chame Claude e outros modelos na onehop, ou cadastre-se para receber US$ 10 em crédito grátis.
Leituras relacionadas

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 no Terminal-Bench 2.0
Gemini 3.1 Pro lidera no harness compartilhado do Terminal-Bench 2.0, mas a escolha do harness muda a história para CLIs.
16 de junho de 2026 · 23 min de leitura

Use Groq GPT-OSS 120B com o SDK da OpenAI: Base URL, preços e cache
Troque a base URL do SDK da OpenAI para rodar GPT-OSS 120B na Groq, estimar custos com cache e evitar surpresas com ferramentas.
17 de junho de 2026 · 27 min de leitura

Usando o Grok Build no Warp com uma assinatura SuperGrok ou X Premium
A xAI agora permite conectar Grok ou X Premium ao Warp e usar o grok-build-0.1 em fluxos de agentes no terminal.
16 de junho de 2026 · 23 min de leitura