Voltar para todos os artigos
Benchmarks

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 no Terminal-Bench 2.0

16 de junho de 2026 · 23 min de leitura · Claude / GPT / Gemini

Capa editorial com fundo creme mostrando três janelas de terminal abstratas como cartões grafite empilhados, cada uma conectada a

O número que importa: 68,5%

O model card do Gemini 3.1 Pro, da Google DeepMind, coloca o Gemini 3.1 Pro em 68,5% no Terminal-Bench 2.0 usando o harness Terminus-2. Na mesma tabela, o Claude Opus 4.6 marca 65,4%, o GPT-5.3-Codex marca 64,7% e o GPT-5.2 marca 54,0% sob a mesma linha de harness (Google DeepMind).

Essa é a linha comparativa mais limpa no material público atual. Ela diz: se você executa esses modelos pelo mesmo setup Terminus-2 reportado, o Gemini 3.1 Pro está à frente, o Claude Opus 4.6 está perto, o GPT-5.3-Codex está basicamente na mesma faixa, e o GPT-5.2 fica bem atrás.

Mas há uma armadilha aqui. O Terminal-Bench não é apenas um benchmark de modelo. É um benchmark de modelo mais agente mais harness.

A página do Terminal-Bench 2.0 da Epoch AI descreve o benchmark como tarefas em que agentes precisam operar dentro de um terminal real: entender o sistema de arquivos, usar programas instalados, raciocinar sobre processos em execução e concluir tarefas sem receber todos os comandos. Ela também diz que as pontuações são reportadas para combinações modelo-agente porque o agente pode mudar materialmente o desempenho (Epoch AI). Essa única frase deveria mudar a forma como você lê qualquer leaderboard.

Gráfico de barras horizontal em fundo creme comparando pontuações do Terminal-Bench 2.0 Terminus-2: Gemini 3.1 Pro 68,5, Claude Opu

A tabela de benchmark que desenvolvedores deveriam realmente usar

Aqui está o recorte útil, restrito aos números que consegui verificar em fontes primárias.

Modelo Pontuação no Terminal-Bench 2.0 Harness / contexto da fonte Preço da API, se relevante
Gemini 3.1 Pro 68,5% Harness Terminus-2 no model card do Google US$ 2/US$ 12 por 1M de tokens de entrada/saída para prompts ≤200k; US$ 4/US$ 18 acima de 200k (Google AI)
Claude Opus 4.6 65,4% Harness Terminus-2 no model card do Google; leaderboard público conforme nota de metodologia do Google US$ 5/US$ 25 por 1M de tokens de entrada/saída (Anthropic)
GPT-5.3-Codex 64,7% Harness Terminus-2 no model card do Google A execução do provedor da OpenAI reporta 77,3% usando Codex CLI, não o mesmo harness (OpenAI)
GPT-5.2 54,0% Harness Terminus-2 no model card do Google US$ 1,75/US$ 14 por 1M de tokens de entrada/saída (OpenAI)

A ordem no Terminus-2 é direta: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

O ponto de engenharia mais importante é menos organizado. O PDF de metodologia do próprio Google diz que as pontuações do Gemini são autocalculadas, enquanto os números de modelos não Gemini geralmente são reportados pelos provedores, salvo indicação em contrário. Especificamente para o Terminal-Bench 2.0, ele diz que o Gemini 3.1 Pro é autocalculado, que os outros modelos vêm do leaderboard público, e que os resultados são reportados tanto para o harness padrão Terminus-2 quanto para outros melhores harnesses autorreportados quando aplicável (PDF de metodologia da Google DeepMind).

Portanto, a leitura justa não é “Gemini esmaga todo mundo”. É: Gemini lidera a comparação compartilhada no Terminus-2 por 3,1 pontos percentuais sobre o Claude e 3,8 pontos sobre o GPT-5.3-Codex. O GPT-5.2 é o claro retardatário nesse setup.

Por que o GPT-5.3-Codex tem duas histórias diferentes

A linha mais confusa é a do GPT-5.3-Codex.

O model card do Google dá a ele 64,7% no harness Terminus-2. Uma linha abaixo, o mesmo card lista números de “outro melhor harness autorreportado”: GPT-5.2 em 62,2% usando Codex, e GPT-5.3-Codex em 77,3% usando Codex (Google DeepMind). O anúncio do GPT-5.3-Codex da própria OpenAI também reporta 77,3% no Terminal-Bench 2.0, com esforço de raciocínio xhigh, e enquadra explicitamente o modelo como um modelo de agente de programação para o Codex (OpenAI).

Ambos podem ser verdade.

Um agente de programação em CLI não é uma conclusão de chat sem estado. O harness decide como os arquivos são expostos, como os comandos são executados, como patches são aplicados, como o estado é resumido, com que frequência o modelo pode se recuperar de um caminho ruim e, às vezes, como o esforço de raciocínio é selecionado. Se você usa Codex CLI, o número de 77,3% da OpenAI é relevante. Se você está comparando modelos dentro do mesmo harness de agente de terceiros, o número de 64,7% no Terminus-2 é a comparação mais limpa.

Essa distinção se traduz diretamente para o uso real:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

Se sua equipe está construindo seu próprio agente CLI, não copie a melhor pontuação de harness de um provedor para uma planilha e chame isso de qualidade do modelo. Trate como qualidade do sistema: modelo, loop de ferramentas, memória, política de retentativas, mecânica de patches, sandbox e contrato de prompt.

Diagrama de fluxo mostrando “tarefa do desenvolvedor” entrando em um harness de agente, dividindo-se em modelo, ferramentas de terminal, estado do sistema de arquivos,

O que o Terminal-Bench 2.0 mede melhor que o SWE-Bench

O SWE-Bench ainda é útil, mas o Terminal-Bench captura um modo de falha diferente. Um modelo pode gerar um patch plausível e ainda ser ruim em viver dentro de um shell.

As tarefas do Terminal-Bench incluem coisas como compilar um kernel Linux no QEMU, configurar um servidor web Git, quebrar um hash 7z para um segredo fornecido, gerar certificados OpenSSL e remodelar arquivos de dados. O site do Terminal-Bench descreve a versão 2.0 como 89 tarefas de alta qualidade em engenharia de software, machine learning, segurança, ciência de dados e mais (Terminal-Bench).

Isso importa porque agentes CLI falham de formas entediantes e caras:

  • Eles esquecem onde estão no sistema de arquivos.
  • Eles executam um comando, ignoram stderr e corrigem o arquivo errado.
  • Eles passam nos testes visíveis, mas deixam passar a invariante oculta.
  • Eles gastam tokens explorando em vez de formar um plano.
  • Eles travam depois de uma instalação com falha ou de um teste instável.

Nessas tarefas, a pontuação de 68,5% do Gemini 3.1 Pro no Terminus-2 é impressionante porque sugere um comportamento forte no loop de comandos, não apenas síntese de código. O Claude Opus 4.6, com 65,4%, está perto o suficiente para que eu não migrasse um fluxo de trabalho maduro com Claude Code apenas pela diferença no benchmark. O GPT-5.2, com 54,0%, é o que eu evitaria para automação difícil em terminal, a menos que custo seja a restrição dominante ou que você tenha um harness muito forte em torno dele.

Escolhendo um modelo para um agente de programação em CLI

Meu ranking prático depende do que você está comprando.

Se você quer a pontuação de terminal mais forte em harness compartilhado, comece pelo Gemini 3.1 Pro. Ele lidera a linha de comparação verificada e é mais barato que o Claude Opus 4.6 no preço padrão por token abaixo de 200k tokens de prompt. O porém: para prompts de repositórios grandes acima de 200k, o preço publicado pelo Google sobe de US$ 2/US$ 12 para US$ 4/US$ 18 por 1M de tokens de entrada/saída, então execuções de agentes com contexto longo precisam de orçamento e disciplina de cache (Google AI).

Se você já opera um fluxo de trabalho fortemente baseado em Claude, Claude Opus 4.6 continua sendo uma escolha forte. A Anthropic lançou o Opus 4.6 em 5 de fevereiro de 2026, com programação mais forte, melhor desempenho em tarefas agênticas longas e uma janela de contexto de 1M de tokens em beta para a plataforma de desenvolvedores (Anthropic). Sua pontuação de 65,4% no Terminus-2 fica próxima à do Gemini. O preço é mais alto: US$ 5 de entrada e US$ 25 de saída por milhão de tokens no preço padrão.

Se você quer o melhor número de terminal específico do Codex, o GPT-5.3-Codex merece uma avaliação separada. Sua pontuação de 77,3% no Terminal-Bench 2.0 reportada pelo provedor está ligada ao setup Codex da OpenAI, enquanto a linha compartilhada no Terminus-2 é 64,7%. Isso não é uma contradição. É um aviso.

Se você está olhando para o GPT-5.2, o caso é custo e capacidade geral, não agência de terminal de ponta. A OpenAI precifica o GPT-5.2 em US$ 1,75/US$ 14 por milhão de tokens de entrada/saída e diz que ele dá suporte a esforço de raciocínio xhigh na API (OpenAI). Mas, na linha compartilhada do Terminal-Bench 2.0, 54,0% é uma grande lacuna.

Resumo final

Para agentes de programação baseados em terminal, eu montaria a shortlist de modelos assim: Gemini 3.1 Pro para o melhor desempenho no Terminal-Bench 2.0 em harness compartilhado, Claude Opus 4.6 para equipes que valorizam confiabilidade de programação com contexto longo e já confiam em fluxos de trabalho Claude, GPT-5.3-Codex quando o runtime-alvo é o próprio Codex, e GPT-5.2 apenas quando preço ou disponibilidade de API importam mais que a taxa de sucesso no terminal.

A principal lição é metodológica. Uma pontuação no Terminal-Bench nunca é apenas “o modelo”. Para desenvolvedores que constroem agentes CLI, o harness faz parte do produto. Acompanhe os dois números: a pontuação em harness compartilhado, que mostra a portabilidade bruta, e a pontuação no harness do provedor, que mostra o que a stack nativa completa consegue fazer.

Leitores que quiserem testar esses modelos na prática podem chamar Claude e outros modelos na onehop com uma API compatível com OpenAI: altere um base_url, mantenha o restante do cliente praticamente igual e compare custos com rotas first-party. Novas contas recebem US$ 10 em crédito grátis sem precisar de cartão: chame Claude e outros modelos na onehop, ou cadastre-se para receber US$ 10 em crédito grátis.