Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro: comparação de preços de API para contexto longo
15 de junho de 2026 · 24 min de leitura · Claude / GPT / Gemini

A página do GPT-5.5 da OpenAI lista uma janela de contexto de 1.050.000 tokens e US$ 5 de entrada / US$ 30 de saída por 1 milhão de tokens. A Anthropic lista o Claude Opus 4.8 a US$ 5 / US$ 25 com contexto de 1 milhão na Claude API. O Google precifica o Gemini 3.1 Pro Preview a US$ 2 / US$ 12 para prompts de até 200 mil tokens, depois US$ 4 / US$ 18 acima de 200 mil.
Essa é toda a disputa de contexto longo em uma frase: o GPT-5.5 compra para você a maior janela declarada e uma taxa premium de saída, o Claude Opus 4.8 atende ao fluxo de trabalho da classe de 1 milhão com saída mais barata, e o Gemini 3.1 Pro Preview tem a vantagem de preço mais agressiva, especialmente quando seus prompts ficam abaixo de 200 mil tokens.

A tabela de preços de que os desenvolvedores realmente precisam
Aqui estão os preços de tabela atuais das APIs de primeira parte, retirados da documentação dos fornecedores, conferidos nas páginas oficiais em 15 de junho de 2026.
| Modelo | Entrada / 1M tokens | Saída / 1M tokens | Contexto máximo | Limite de saída | Degrau de preço |
|---|---|---|---|---|---|
| GPT-5.5 | US$ 5,00 | US$ 30,00 | 1.050.000 | 128.000 | Nenhuma faixa por tamanho de prompt exibida |
| Claude Opus 4.8 | US$ 5,00 | US$ 25,00 | 1M na Claude API | 128.000 | Nenhuma faixa por tamanho de prompt exibida |
| Gemini 3.1 Pro Preview | US$ 2,00 até prompt de 200K, US$ 4,00 acima | US$ 12,00 até prompt de 200K, US$ 18,00 acima | 1M de entrada | 64K | O preço de entrada dobra acima de 200K |
A documentação de modelos da OpenAI descreve o GPT-5.5 como um modelo de fronteira para trabalho profissional complexo e lista US$ 5 de entrada, US$ 0,50 de entrada em cache e US$ 30 de saída por 1 milhão de tokens, além da janela de 1.050.000 tokens (OpenAI). A página pública de preços da Anthropic lista o Opus 4.8 a US$ 5 de entrada, US$ 25 de saída, US$ 6,25 para gravação em cache e US$ 0,50 para leitura de cache por milhão de tokens (preços da Anthropic). As notas do modelo Opus 4.8 dizem que o modelo oferece suporte a contexto de 1 milhão de tokens por padrão na Claude API, Amazon Bedrock e Vertex AI, com 200K no Microsoft Foundry (documentação da Anthropic). A página de preços do Gemini, do Google, lista gemini-3.1-pro-preview a US$ 2 / US$ 12 para prompts de até 200 mil tokens e US$ 4 / US$ 18 acima de 200 mil (preços do Google); o guia do Gemini 3 lista contexto de entrada de 1 milhão e saída de até 64K para modelos Gemini 3 (guia do Google Gemini 3).
A armadilha: “por 1 milhão de tokens” faz os preços parecerem lineares. O Gemini não é totalmente linear. A faixa por tamanho de prompt importa.
O degrau de custo: 200 mil tokens é a linha
Para muitos agentes de desenvolvedor, 200 mil tokens não é um número grande. Um repositório médio mais package-lock.json, alguns arquivos gerados e um documento de design podem estourar isso. Um corpus de contratos jurídicos ou um arquivo de suporte ao cliente pode fazer o mesmo ainda mais rápido.
Exemplos aproximados de custo de primeira parte:
| Carga de trabalho | GPT-5.5 | Claude Opus 4.8 | Gemini 3.1 Pro Preview |
|---|---|---|---|
| 100K entrada + 10K saída | US$ 0,80 | US$ 0,75 | US$ 0,32 |
| 250K entrada + 25K saída | US$ 2,00 | US$ 1,88 | US$ 1,45 |
| 1M entrada + 50K saída | US$ 6,50 | US$ 6,25 | US$ 4,90 |
Premissas: apenas precificação padrão de tokens de texto, sem descontos por lote, sem economias de cache específicas de provedor, sem cobranças extras por ferramentas, e a faixa mais alta do Gemini aplicada quando o prompt fica acima de 200 mil tokens. Contas reais podem mudar se você usar cache de prompt, APIs em lote, modos de prioridade, modos rápidos, ferramentas ou retries.
O insight útil é simples. Abaixo de 200 mil tokens de prompt, o Gemini 3.1 Pro Preview é drasticamente mais barato pelo preço de tabela. Acima de 200 mil, ele ainda fica abaixo do GPT-5.5 e do Opus 4.8 nesses exemplos, mas a diferença diminui. Claude e GPT têm superfícies de preço mais planas, então a previsão de custo é mais fácil quando o tamanho do prompt varia muito.

Janela de contexto não é o mesmo que contexto útil
Uma janela de 1 milhão de tokens permite pular parte da engenharia de recuperação. Ela não elimina a necessidade de seleção, compressão e evals.
Para análise de repositório inteiro, eu ainda evitaria despejar o repositório completo por padrão. Alimente o modelo primeiro com um manifesto: árvore de arquivos, metadados de pacotes, scripts de build, grafo de dependências, arquivos alterados recentemente e falhas de teste. Depois adicione os arquivos que importam. Contexto longo funciona melhor como margem de respiro, não como desculpa para parar de projetar o agente.
O Claude Opus 4.8 é posicionado explicitamente pela Anthropic para “raciocínio complexo, coding agêntico de longo horizonte e trabalho de alta autonomia” nas notas do modelo (documentação da Anthropic). A mesma página destaca melhorias em coding agêntico de longo horizonte, acionamento de ferramentas, recuperação de compactação e qualidade de contexto longo. Esses são exatamente os modos de falha que aparecem em agentes de coding reais depois da segunda hora: restrições esquecidas, chamadas de ferramentas puladas e recuperação ruim após sumarização.
A OpenAI posiciona o GPT-5.5 para “coding e trabalho profissional” e dá a ele a maior janela de contexto listada aqui: 1.050.000 tokens (OpenAI). Esses 50K extras em relação a um 1M nominal não são, por si só, motivo para escolhê-lo, mas são uma margem útil quando sua camada de orquestração adiciona mensagens de sistema, schemas de ferramentas, traces e arquivos recuperados.
O Google descreve o Gemini 3.1 Pro Preview como o modelo Pro para amplo conhecimento de mundo, raciocínio avançado entre modalidades, capacidades agênticas e vibe-coding na página de preços e no guia do Gemini 3 (preços do Google, guia do Google Gemini 3). Ele também oferece suporte a uma variante gemini-3.1-pro-preview-customtools, que o Google sugere quando apps combinam Bash e ferramentas customizadas e precisam que o modelo priorize ferramentas customizadas. Isso é uma pista muito específica para quem constrói agentes.
Escolhas por cenário
Se você está construindo um agente de coding para repositório inteiro, comece com Claude Opus 4.8 ou GPT-5.5 e depois faça benchmark do Gemini 3.1 Pro Preview nos seus próprios traces. A taxa de saída de US$ 25 do Claude dá a ele uma vantagem direta de custo sobre o GPT-5.5 para planejamento verboso de patches, code review e loops de ferramentas em múltiplas etapas. O GPT-5.5 tem a maior janela declarada e um forte posicionamento em coding/trabalho profissional. Eu escolheria o GPT-5.5 quando o fluxo de trabalho se beneficia do ecossistema da Responses API da OpenAI ou quando sua stack existente já é nativa da OpenAI.
Se você está criando um agente de análise com muitos documentos, o Gemini 3.1 Pro Preview é o primeiro modelo que eu testaria em custo. Com 100K de entrada e 10K de saída, a estimativa por preço de tabela é US$ 0,32, menos da metade do Claude Opus 4.8 e do GPT-5.5 na tabela acima. Se seus prompts passam de 200K com frequência, fique atento ao degrau. O degrau não é fatal, mas muda seu alvo de otimização: mantenha boilerplate repetido com frequência em cache ou resumido, e evite anexar todas as páginas de PDF quando um subconjunto roteado é suficiente.
Se você precisa de previsão de custo estável, o Claude Opus 4.8 é o mais limpo dos três. Mesmos US$ 5 de entrada que o GPT-5.5, saída mais barata, contexto de 1 milhão e nenhuma faixa de prompt de 200K na precificação listada. Para equipes que vendem execuções de agentes como um recurso, custo de saída previsível importa.
Se você precisa do ponto de entrada flagship de contexto longo mais barato, o Gemini vence pelo preço de tabela de primeira parte. O trade-off é o status de preview e o limite de faixa. Trate-o como um candidato sério, não como uma escolha padrão para sempre.
Um padrão prático de roteamento
Não coloque hard-code de um único modelo flagship no seu produto. Faça roteamento por tamanho de prompt, risco de saída e tipo de tarefa.
Uma política inicial sensata:
if prompt_tokens <= 200_000 and task is document-heavy:
try Gemini 3.1 Pro Preview
elif task is long-running coding agent:
try Claude Opus 4.8
elif task needs OpenAI-native agent tooling or the largest listed window:
try GPT-5.5
else:
run a small eval set across all three
Se você quiser testar esses modelos sem integrar três fornecedores, a onehop é o caminho fácil: altere uma base URL para https://api.onehop.ai/v1, use chamadas compatíveis com OpenAI/Anthropic e roteie Claude, GPT e Gemini de um só lugar. A onehop diz que é mais barata do que as opções de primeira parte, dá US$ 10 de crédito gratuito para novas contas e não exige cartão.
Exemplo no estilo do SDK da OpenAI:
from openai import OpenAI
client = OpenAI(
api_key="ONEHOP_API_KEY",
base_url="https://api.onehop.ai/v1",
)
response = client.chat.completions.create(
model="claude-opus-4-8",
messages=[
{"role": "user", "content": "Review this repo manifest and list the riskiest files."}
],
)
print(response.choices[0].message.content)
A parte importante não é o SDK. É a disciplina: mesma tarefa, mesmos arquivos, mesma rubrica de pontuação, três modelos. Meça o custo por execução bem-sucedida, não o custo por token isoladamente.
Conclusão
Para 15 de junho de 2026, minhas recomendações padrão são:
- Escolha o Gemini 3.1 Pro Preview primeiro para cargas de trabalho com muitos documentos abaixo de 200K tokens de prompt.
- Escolha o Claude Opus 4.8 primeiro para agentes de coding de longa duração em que custo de saída e confiabilidade de ferramentas importam.
- Escolha o GPT-5.5 primeiro quando você quiser infraestrutura agêntica nativa da OpenAI ou a maior janela de contexto listada.
- Teste novamente acima de 200K tokens, porque a faixa de preço do Gemini muda a conta.
- Use cache de prompt e roteamento antes de ajustar seu prompt até virar um blob gigante e caro.
Contexto longo agora é requisito básico. A escolha real é onde seu agente gasta dinheiro: volume de entrada, verbosidade de saída, retries ou erros de ferramentas. Se você quiser um endpoint para compará-los rapidamente, pode chamar Claude e outros modelos na onehop, depois cadastrar-se para ganhar US$ 10 de crédito gratuito e executar seus próprios traces de eval antes de se comprometer.
Leituras relacionadas

Use Groq GPT-OSS 120B com o SDK da OpenAI: Base URL, preços e cache
Troque a base URL do SDK da OpenAI para rodar GPT-OSS 120B na Groq, estimar custos com cache e evitar surpresas com ferramentas.
17 de junho de 2026 · 27 min de leitura

GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 em codificação no Aider Polyglot
Uma comparação orientada por dados entre GPT-5, Gemini 2.5 Pro e Claude Opus 4 em codificação no Aider Polyglot.
17 de junho de 2026 · 23 min de leitura

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 no Terminal-Bench 2.0
Gemini 3.1 Pro lidera no harness compartilhado do Terminal-Bench 2.0, mas a escolha do harness muda a história para CLIs.
16 de junho de 2026 · 23 min de leitura