Migração da API DeepSeek para deepseek-v4-flash / deepseek-v4-pro: como escolher entre os formatos compatíveis com OpenAI e Anthropic
14 de junho de 2026 · 12 min de leitura · Claude / GPT / Gemini / DeepSeek

Em 2026-06-14, ao olhar para a API da DeepSeek, o que você mais deveria mudar primeiro não é o prompt, mas o nome do modelo. A página de preços em chinês da DeepSeek é bem direta: deepseek-chat e deepseek-reasoner serão descontinuados em 2026/07/24 às 23:59, horário de Pequim; durante o período de compatibilidade, o primeiro corresponde ao modo sem raciocínio do deepseek-v4-flash, e o segundo corresponde ao modo com raciocínio do deepseek-v4-flash (página de preços da DeepSeek). Se o seu código de produção ainda usa os nomes antigos, não espere até a última semana.

Escolha primeiro o formato da interface: olhe para o seu ecossistema, não para a sua crença
A DeepSeek agora oferece duas entradas compatíveis ao mesmo tempo: formato OpenAI https://api.deepseek.com e formato Anthropic https://api.deepseek.com/anthropic (primeira chamada à API da DeepSeek).
Minha recomendação é simples:
| Sua situação atual | Qual escolher | Motivo |
|---|---|---|
| Você já usa OpenAI SDK, LangChain, LlamaIndex ou Chat Completions do Vercel AI SDK | Formato OpenAI | Exige menos alterações em base_url e model |
| Você já usa Anthropic SDK, Claude Code ou a estrutura da Messages API | Formato Anthropic | Os hábitos de system, messages.create e max_tokens não mudam |
| Você escreveu seu próprio HTTP wrapper | Priorize o formato OpenAI | Há mais material de depuração e os campos são mais universais |
| Você quer reutilizar a cadeia de ferramentas do Claude | Formato Anthropic | A DeepSeek declara suporte ao ecossistema da API Anthropic (API Anthropic da DeepSeek) |
Uma armadilha: no formato Anthropic, a DeepSeek faz mapeamento de nomes de modelo. A documentação oficial diz que nomes começando com claude-opus serão mapeados para deepseek-v4-pro, enquanto nomes começando com claude-haiku ou claude-sonnet serão mapeados para deepseek-v4-flash. Ainda assim, recomendo escrever explicitamente deepseek-v4-pro ou deepseek-v4-flash; não entregue o comportamento de produção a um mapeamento implícito.
Substituição dos nomes de modelo: pare de depender de aliases de compatibilidade
A tabela de migração tem apenas duas linhas:
| Nome antigo do modelo | Compatível atualmente com | Forma recomendada |
|---|---|---|
deepseek-chat |
deepseek-v4-flash em modo sem raciocínio |
deepseek-v4-flash + desativar thinking |
deepseek-reasoner |
deepseek-v4-flash em modo com raciocínio |
deepseek-v4-flash ou deepseek-v4-pro + ativar thinking |
Se antes você usava deepseek-reasoner para revisão de código, SQL complexo ou raciocínio sobre textos longos, vale aproveitar para avaliar o deepseek-v4-pro. Se for apenas atendimento ao cliente, resumo ou classificação, deepseek-v4-flash parece mais a escolha padrão.

Formato OpenAI: versão com alterações mínimas
O formato OpenAI da DeepSeek ainda usa Chat Completions. A interface oficial da OpenAI também segue o estilo de lista de mensagens em POST /v1/chat/completions (Referência da API OpenAI), então, na maioria dos SDKs, basta mudar dois pontos.
# pip install openai
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com",
)
resp = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[
{"role": "system", "content": "你是一个严谨的代码审查助手。"},
{"role": "user", "content": "检查这段 Python 代码的潜在 bug。"},
],
extra_body={"thinking": {"type": "disabled"}},
stream=False,
)
print(resp.choices[0].message.content)
Para ativar o modo de raciocínio, altere a última parte para:
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}}
O modo de raciocínio da DeepSeek vem ativado por padrão; no OpenAI SDK, thinking deve ser colocado em extra_body; a intensidade de raciocínio aceita high e max (modo de raciocínio da DeepSeek). Se sua cadeia de chamadas de ferramentas reenviar mensagens do assistant, lembre-se de uma regra rígida: em turnos de modo de raciocínio que envolvem tool call, as solicitações subsequentes devem reenviar integralmente reasoning_content, caso contrário receberão 400.
Formato Anthropic: deixe uma porta aberta para a cadeia de ferramentas do Claude
Se você já estruturou prompts de sistema, max_tokens e client.messages.create() em torno da Anthropic Messages API, basta trocar a Base URL:
# pip install anthropic
import os
import anthropic
client = anthropic.Anthropic(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/anthropic",
)
msg = client.messages.create(
model="deepseek-v4-pro",
max_tokens=1000,
system="你是一个资深后端工程师。",
messages=[{"role": "user", "content": "给我一个 Redis 缓存穿透的修复方案。"}],
thinking={"type": "enabled"},
output_config={"effort": "high"},
)
print(msg.content)
A Messages API oficial da Anthropic também segue essa estrutura de messages.create, com campos centrais como model, max_tokens, system e messages (Anthropic Messages API). Portanto, o verdadeiro motivo para escolher o formato Anthropic não é ele ser “mais avançado”, mas sim exigir menos alterações no código do ecossistema Claude.
Estimativa de custos: comece calculando como se não houvesse acerto de cache
A página de preços em chinês da DeepSeek cobra por milhão de tokens: para deepseek-v4-flash, entrada com acerto de cache custa 0,02 yuan, entrada sem acerto custa 1 yuan e saída custa 2 yuan; para deepseek-v4-pro, entrada com acerto de cache custa 0,025 yuan, entrada sem acerto custa 3 yuan e saída custa 6 yuan (página de preços da DeepSeek).
Um cálculo aproximado: 200M de entrada e 50M de saída por mês, primeiro considerando tudo como sem acerto de cache.
| Modelo | Custo de entrada | Custo de saída | Total |
|---|---|---|---|
deepseek-v4-flash |
200 yuan | 100 yuan | 300 yuan |
deepseek-v4-pro |
600 yuan | 300 yuan | 900 yuan |
A fatura real será afetada pelos acertos de cache. Ao fazer RAG, Agent ou prompts de sistema longos, coloque os prefixos estáveis no início; quando a taxa de acerto subir, o custo de entrada cairá bastante. Não use os números de cache mais otimistas para fazer o orçamento logo no primeiro dia da migração.
Usuários de interfaces intermediárias: para facilitar, dá para usar onehop
Se o seu objetivo não é se conectar apenas à DeepSeek, mas alternar entre Claude, GPT e Gemini na mesma base de código, a onehop é um caminho que economiza tempo: compatível com OpenAI/Anthropic, basta mudar a Base URL para https://api.onehop.ai/v1, novas contas recebem US$ 10, os preços são mais baixos que os oficiais e não é necessário vincular cartão.
Exemplo com OpenAI SDK:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["ONEHOP_API_KEY"],
base_url="https://api.onehop.ai/v1",
)
resp = client.chat.completions.create(
model="claude-sonnet-4-5",
messages=[{"role": "user", "content": "用三点解释这个 API 迁移计划。"}],
)
print(resp.choices[0].message.content)
O Anthropic SDK também pode apontar para a mesma Base URL:
import anthropic, os
client = anthropic.Anthropic(
api_key=os.environ["ONEHOP_API_KEY"],
base_url="https://api.onehop.ai/v1",
)
Eu planejaria a migração de produção assim: hoje, substitua os nomes antigos dos modelos; esta semana, faça passar os smoke tests dos dois caminhos, OpenAI e Anthropic; até o fim do mês, complete a lógica de reenvio do modo de raciocínio e dos tool calls; antes de meados de julho, remova todos os deepseek-chat e deepseek-reasoner. Se você quiser manter menos conjuntos de configurações de fornecedores, pode testar diretamente: chame Claude e outros modelos pela onehop, ou primeiro resgate o crédito para validar o fluxo: cadastre-se e receba US$ 10 em crédito de teste.
Leituras relacionadas

Use Groq GPT-OSS 120B com o SDK da OpenAI: Base URL, preços e cache
Troque a base URL do SDK da OpenAI para rodar GPT-OSS 120B na Groq, estimar custos com cache e evitar surpresas com ferramentas.
17 de junho de 2026 · 27 min de leitura

Usando o OpenAI SDK para chamar a Gemini API: tutorial de migração alterando apenas base_url, API Key e nome do modelo
Checklist de migração para projetos com OpenAI SDK usando a interface compatível do Gemini, com código, mapeamento de parâmetros e preços.
14 de junho de 2026 · 9 min de leitura

Como chamar a API Gemini com o OpenAI SDK: tutorial de integração alterando apenas base_url, key e nome do modelo
Integre código existente do OpenAI SDK ao Gemini com mudanças mínimas em apenas três configurações.
14 de junho de 2026 · 9 min de leitura