Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro: comparação de preços de API para contexto longo

A página do GPT-5.5 da OpenAI lista uma janela de contexto de 1.050.000 tokens e US$ 5 de entrada / US$ 30 de saída por 1 milhão de tokens. A Anthropic lista o Claude Opus 4.8 a US$ 5 / US$ 25 com contexto de 1 milhão na Claude API. O Google precifica o Gemini 3.1 Pro Preview a US$ 2 / US$ 12 para prompts de até 200 mil tokens, depois US$ 4 / US$ 18 acima de 200 mil.

Essa é toda a disputa de contexto longo em uma frase: o GPT-5.5 compra para você a maior janela declarada e uma taxa premium de saída, o Claude Opus 4.8 atende ao fluxo de trabalho da classe de 1 milhão com saída mais barata, e o Gemini 3.1 Pro Preview tem a vantagem de preço mais agressiva, especialmente quando seus prompts ficam abaixo de 200 mil tokens.

Gráfico comparativo horizontal em estilo capa com três colunas para GPT-5.5, Claude Opus 4.8 e Gemini 3.1 Pro Preview; cada

A tabela de preços de que os desenvolvedores realmente precisam

Aqui estão os preços de tabela atuais das APIs de primeira parte, retirados da documentação dos fornecedores, conferidos nas páginas oficiais em 15 de junho de 2026.

Modelo	Entrada / 1M tokens	Saída / 1M tokens	Contexto máximo	Limite de saída	Degrau de preço
GPT-5.5	US$ 5,00	US$ 30,00	1.050.000	128.000	Nenhuma faixa por tamanho de prompt exibida
Claude Opus 4.8	US$ 5,00	US$ 25,00	1M na Claude API	128.000	Nenhuma faixa por tamanho de prompt exibida
Gemini 3.1 Pro Preview	US$ 2,00 até prompt de 200K, US$ 4,00 acima	US$ 12,00 até prompt de 200K, US$ 18,00 acima	1M de entrada	64K	O preço de entrada dobra acima de 200K

A documentação de modelos da OpenAI descreve o GPT-5.5 como um modelo de fronteira para trabalho profissional complexo e lista US$ 5 de entrada, US$ 0,50 de entrada em cache e US$ 30 de saída por 1 milhão de tokens, além da janela de 1.050.000 tokens (OpenAI). A página pública de preços da Anthropic lista o Opus 4.8 a US$ 5 de entrada, US$ 25 de saída, US$ 6,25 para gravação em cache e US$ 0,50 para leitura de cache por milhão de tokens (preços da Anthropic). As notas do modelo Opus 4.8 dizem que o modelo oferece suporte a contexto de 1 milhão de tokens por padrão na Claude API, Amazon Bedrock e Vertex AI, com 200K no Microsoft Foundry (documentação da Anthropic). A página de preços do Gemini, do Google, lista gemini-3.1-pro-preview a US$ 2 / US$ 12 para prompts de até 200 mil tokens e US$ 4 / US$ 18 acima de 200 mil (preços do Google); o guia do Gemini 3 lista contexto de entrada de 1 milhão e saída de até 64K para modelos Gemini 3 (guia do Google Gemini 3).

A armadilha: “por 1 milhão de tokens” faz os preços parecerem lineares. O Gemini não é totalmente linear. A faixa por tamanho de prompt importa.

O degrau de custo: 200 mil tokens é a linha

Para muitos agentes de desenvolvedor, 200 mil tokens não é um número grande. Um repositório médio mais package-lock.json, alguns arquivos gerados e um documento de design podem estourar isso. Um corpus de contratos jurídicos ou um arquivo de suporte ao cliente pode fazer o mesmo ainda mais rápido.

Exemplos aproximados de custo de primeira parte:

Carga de trabalho	GPT-5.5	Claude Opus 4.8	Gemini 3.1 Pro Preview
100K entrada + 10K saída	US$ 0,80	US$ 0,75	US$ 0,32
250K entrada + 25K saída	US$ 2,00	US$ 1,88	US$ 1,45
1M entrada + 50K saída	US$ 6,50	US$ 6,25	US$ 4,90

Premissas: apenas precificação padrão de tokens de texto, sem descontos por lote, sem economias de cache específicas de provedor, sem cobranças extras por ferramentas, e a faixa mais alta do Gemini aplicada quando o prompt fica acima de 200 mil tokens. Contas reais podem mudar se você usar cache de prompt, APIs em lote, modos de prioridade, modos rápidos, ferramentas ou retries.

O insight útil é simples. Abaixo de 200 mil tokens de prompt, o Gemini 3.1 Pro Preview é drasticamente mais barato pelo preço de tabela. Acima de 200 mil, ele ainda fica abaixo do GPT-5.5 e do Opus 4.8 nesses exemplos, mas a diferença diminui. Claude e GPT têm superfícies de preço mais planas, então a previsão de custo é mais fácil quando o tamanho do prompt varia muito.

Gráfico de linhas mostrando o custo estimado de requisição para saída fixa de 10K e tamanho de entrada de 50K a 1M tokens; Gemini tem um visível

Janela de contexto não é o mesmo que contexto útil

Uma janela de 1 milhão de tokens permite pular parte da engenharia de recuperação. Ela não elimina a necessidade de seleção, compressão e evals.

Para análise de repositório inteiro, eu ainda evitaria despejar o repositório completo por padrão. Alimente o modelo primeiro com um manifesto: árvore de arquivos, metadados de pacotes, scripts de build, grafo de dependências, arquivos alterados recentemente e falhas de teste. Depois adicione os arquivos que importam. Contexto longo funciona melhor como margem de respiro, não como desculpa para parar de projetar o agente.

O Claude Opus 4.8 é posicionado explicitamente pela Anthropic para “raciocínio complexo, coding agêntico de longo horizonte e trabalho de alta autonomia” nas notas do modelo (documentação da Anthropic). A mesma página destaca melhorias em coding agêntico de longo horizonte, acionamento de ferramentas, recuperação de compactação e qualidade de contexto longo. Esses são exatamente os modos de falha que aparecem em agentes de coding reais depois da segunda hora: restrições esquecidas, chamadas de ferramentas puladas e recuperação ruim após sumarização.

A OpenAI posiciona o GPT-5.5 para “coding e trabalho profissional” e dá a ele a maior janela de contexto listada aqui: 1.050.000 tokens (OpenAI). Esses 50K extras em relação a um 1M nominal não são, por si só, motivo para escolhê-lo, mas são uma margem útil quando sua camada de orquestração adiciona mensagens de sistema, schemas de ferramentas, traces e arquivos recuperados.

O Google descreve o Gemini 3.1 Pro Preview como o modelo Pro para amplo conhecimento de mundo, raciocínio avançado entre modalidades, capacidades agênticas e vibe-coding na página de preços e no guia do Gemini 3 (preços do Google, guia do Google Gemini 3). Ele também oferece suporte a uma variante gemini-3.1-pro-preview-customtools, que o Google sugere quando apps combinam Bash e ferramentas customizadas e precisam que o modelo priorize ferramentas customizadas. Isso é uma pista muito específica para quem constrói agentes.

Escolhas por cenário

Se você está construindo um agente de coding para repositório inteiro, comece com Claude Opus 4.8 ou GPT-5.5 e depois faça benchmark do Gemini 3.1 Pro Preview nos seus próprios traces. A taxa de saída de US$ 25 do Claude dá a ele uma vantagem direta de custo sobre o GPT-5.5 para planejamento verboso de patches, code review e loops de ferramentas em múltiplas etapas. O GPT-5.5 tem a maior janela declarada e um forte posicionamento em coding/trabalho profissional. Eu escolheria o GPT-5.5 quando o fluxo de trabalho se beneficia do ecossistema da Responses API da OpenAI ou quando sua stack existente já é nativa da OpenAI.

Se você está criando um agente de análise com muitos documentos, o Gemini 3.1 Pro Preview é o primeiro modelo que eu testaria em custo. Com 100K de entrada e 10K de saída, a estimativa por preço de tabela é US$ 0,32, menos da metade do Claude Opus 4.8 e do GPT-5.5 na tabela acima. Se seus prompts passam de 200K com frequência, fique atento ao degrau. O degrau não é fatal, mas muda seu alvo de otimização: mantenha boilerplate repetido com frequência em cache ou resumido, e evite anexar todas as páginas de PDF quando um subconjunto roteado é suficiente.

Se você precisa de previsão de custo estável, o Claude Opus 4.8 é o mais limpo dos três. Mesmos US$ 5 de entrada que o GPT-5.5, saída mais barata, contexto de 1 milhão e nenhuma faixa de prompt de 200K na precificação listada. Para equipes que vendem execuções de agentes como um recurso, custo de saída previsível importa.

Se você precisa do ponto de entrada flagship de contexto longo mais barato, o Gemini vence pelo preço de tabela de primeira parte. O trade-off é o status de preview e o limite de faixa. Trate-o como um candidato sério, não como uma escolha padrão para sempre.

Um padrão prático de roteamento

Não coloque hard-code de um único modelo flagship no seu produto. Faça roteamento por tamanho de prompt, risco de saída e tipo de tarefa.

Uma política inicial sensata:

if prompt_tokens <= 200_000 and task is document-heavy:
    try Gemini 3.1 Pro Preview
elif task is long-running coding agent:
    try Claude Opus 4.8
elif task needs OpenAI-native agent tooling or the largest listed window:
    try GPT-5.5
else:
    run a small eval set across all three

Se você quiser testar esses modelos sem integrar três fornecedores, a onehop é o caminho fácil: altere uma base URL para https://api.onehop.ai/v1, use chamadas compatíveis com OpenAI/Anthropic e roteie Claude, GPT e Gemini de um só lugar. A onehop diz que é mais barata do que as opções de primeira parte, dá US$ 10 de crédito gratuito para novas contas e não exige cartão.

Exemplo no estilo do SDK da OpenAI:

from openai import OpenAI

client = OpenAI(
    api_key="ONEHOP_API_KEY",
    base_url="https://api.onehop.ai/v1",
)

response = client.chat.completions.create(
    model="claude-opus-4-8",
    messages=[
        {"role": "user", "content": "Review this repo manifest and list the riskiest files."}
    ],
)

print(response.choices[0].message.content)

A parte importante não é o SDK. É a disciplina: mesma tarefa, mesmos arquivos, mesma rubrica de pontuação, três modelos. Meça o custo por execução bem-sucedida, não o custo por token isoladamente.

Conclusão

Para 15 de junho de 2026, minhas recomendações padrão são:

Escolha o Gemini 3.1 Pro Preview primeiro para cargas de trabalho com muitos documentos abaixo de 200K tokens de prompt.
Escolha o Claude Opus 4.8 primeiro para agentes de coding de longa duração em que custo de saída e confiabilidade de ferramentas importam.
Escolha o GPT-5.5 primeiro quando você quiser infraestrutura agêntica nativa da OpenAI ou a maior janela de contexto listada.
Teste novamente acima de 200K tokens, porque a faixa de preço do Gemini muda a conta.
Use cache de prompt e roteamento antes de ajustar seu prompt até virar um blob gigante e caro.

Contexto longo agora é requisito básico. A escolha real é onde seu agente gasta dinheiro: volume de entrada, verbosidade de saída, retries ou erros de ferramentas. Se você quiser um endpoint para compará-los rapidamente, pode chamar Claude e outros modelos na onehop, depois cadastrar-se para ganhar US$ 10 de crédito gratuito e executar seus próprios traces de eval antes de se comprometer.

Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro: comparação de preços de API para contexto longo

A tabela de preços de que os desenvolvedores realmente precisam

O degrau de custo: 200 mil tokens é a linha

Janela de contexto não é o mesmo que contexto útil

Escolhas por cenário

Um padrão prático de roteamento

Conclusão

Leituras relacionadas

Chame o Qwen3.7 Plus com o SDK da OpenAI via modo compatível do DashScope

GPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro no SWE-Bench Pro

Use Groq GPT-OSS 120B com o SDK da OpenAI: Base URL, preços e cache