Migrazione dell’API DeepSeek a deepseek-v4-flash / deepseek-v4-pro: come scegliere tra i formati compatibili OpenAI e Anthropic
14 giugno 2026 · 12 min di lettura · Claude / GPT / Gemini / DeepSeek

2026-06-14 Guardando la DeepSeek API, la prima cosa da cambiare non è il prompt, ma il nome del modello. La pagina prezzi cinese di DeepSeek lo dice in modo molto diretto: deepseek-chat e deepseek-reasoner verranno deprecati alle 23:59 del 24/07/2026, ora di Pechino; durante il periodo di compatibilità, il primo corrisponde alla modalità senza ragionamento di deepseek-v4-flash, il secondo alla modalità con ragionamento di deepseek-v4-flash (pagina prezzi DeepSeek). Se nel tuo codice di produzione stai ancora usando i vecchi nomi, non aspettare l’ultima settimana.

Scegli prima il formato dell’interfaccia: guarda il tuo ecosistema, non la fede
DeepSeek ora offre due endpoint compatibili: formato OpenAI https://api.deepseek.com, formato Anthropic https://api.deepseek.com/anthropic (prima chiamata API DeepSeek).
Il mio consiglio è semplice:
| La tua situazione attuale | Cosa scegliere | Motivo |
|---|---|---|
| Usi già OpenAI SDK, LangChain, LlamaIndex, Vercel AI SDK con Chat Completions | Formato OpenAI | Modifiche minime a base_url e model |
| Usi già Anthropic SDK, Claude Code, struttura Messages API | Formato Anthropic | Le abitudini su system, messages.create, max_tokens restano invariate |
| Hai scritto un wrapper HTTP tuo | Preferisci il formato OpenAI | Più materiale per il debug, campi più generici |
| Vuoi riutilizzare la toolchain Claude | Formato Anthropic | DeepSeek supporta esplicitamente l’ecosistema Anthropic API (DeepSeek Anthropic API) |
Una trappola: nel formato Anthropic, DeepSeek effettua una mappatura dei nomi dei modelli. La documentazione ufficiale indica che i nomi che iniziano con claude-opus vengono mappati su deepseek-v4-pro, mentre quelli che iniziano con claude-haiku o claude-sonnet vengono mappati su deepseek-v4-flash. Io consiglio comunque di scrivere esplicitamente deepseek-v4-pro o deepseek-v4-flash, senza affidare il comportamento in produzione a una mappatura implicita.
Sostituzione dei nomi dei modelli: non dipendere più dagli alias compatibili
La tabella di migrazione ha solo due righe:
| Vecchio nome modello | Compatibilità attuale con | Scrittura consigliata |
|---|---|---|
deepseek-chat |
deepseek-v4-flash modalità senza ragionamento |
deepseek-v4-flash + disattivare thinking |
deepseek-reasoner |
deepseek-v4-flash modalità con ragionamento |
deepseek-v4-flash o deepseek-v4-pro + attivare thinking |
Se prima usavi deepseek-reasoner per code review, SQL complesso o ragionamento su testi lunghi, vale la pena valutare anche deepseek-v4-pro. Se si tratta solo di customer service, riassunti o classificazione, deepseek-v4-flash è più simile alla scelta predefinita.

Formato OpenAI: versione con modifiche minime
Il formato OpenAI di DeepSeek usa ancora Chat Completions. Anche l’interfaccia ufficiale di OpenAI è una struttura a lista di messaggi con POST /v1/chat/completions (OpenAI API Reference), quindi nella maggior parte degli SDK basta cambiare due punti.
# pip install openai
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com",
)
resp = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[
{"role": "system", "content": "你是一个严谨的代码审查助手。"},
{"role": "user", "content": "检查这段 Python 代码的潜在 bug。"},
],
extra_body={"thinking": {"type": "disabled"}},
stream=False,
)
print(resp.choices[0].message.content)
Per attivare la modalità di ragionamento, modifica l’ultima parte così:
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}}
La modalità di ragionamento di DeepSeek è attiva per impostazione predefinita; nell’OpenAI SDK, thinking va inserito in extra_body; l’intensità del ragionamento supporta high e max (modalità di ragionamento DeepSeek). Se la tua catena di tool calling reinvia i messaggi assistant, ricorda una regola rigida: nei turni in modalità di ragionamento che coinvolgono tool call, le richieste successive devono reinviare integralmente reasoning_content, altrimenti riceverai un 400.
Formato Anthropic: una porta di servizio per la toolchain Claude
Se hai già scritto prompt di sistema, max_tokens e client.messages.create() intorno all’Anthropic Messages API, basta cambiare il Base URL:
# pip install anthropic
import os
import anthropic
client = anthropic.Anthropic(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/anthropic",
)
msg = client.messages.create(
model="deepseek-v4-pro",
max_tokens=1000,
system="你是一个资深后端工程师。",
messages=[{"role": "user", "content": "给我一个 Redis 缓存穿透的修复方案。"}],
thinking={"type": "enabled"},
output_config={"effort": "high"},
)
print(msg.content)
Anche l’Anthropic Messages API ufficiale usa questa struttura messages.create, con campi principali come model, max_tokens, system, messages (Anthropic Messages API). Quindi il vero motivo per scegliere il formato Anthropic non è che sia “più avanzato”, ma che richiede meno modifiche al codice dell’ecosistema Claude.
Stima dei costi: parti assumendo cache miss
La pagina prezzi cinese di DeepSeek fattura per milione di token: per deepseek-v4-flash, input con cache hit 0,02 yuan, input senza cache hit 1 yuan, output 2 yuan; per deepseek-v4-pro, input con cache hit 0,025 yuan, input senza cache hit 3 yuan, output 6 yuan (pagina prezzi DeepSeek).
Un calcolo approssimativo: 200M di input e 50M di output al mese, inizialmente assumendo tutto come cache miss.
| Modello | Costo input | Costo output | Totale |
|---|---|---|---|
deepseek-v4-flash |
200 yuan | 100 yuan | 300 yuan |
deepseek-v4-pro |
600 yuan | 300 yuan | 900 yuan |
La fattura reale dipenderà dalla percentuale di cache hit. Quando fai RAG, Agent o usi prompt di sistema lunghi, metti i prefissi stabili all’inizio: quando la percentuale di hit sale, il costo dell’input cala in modo evidente. Non fare il budget il primo giorno di migrazione usando i numeri di cache più ottimistici.
Utenti di interfacce proxy: per semplificare puoi usare onehop
Se il tuo obiettivo non è integrare solo DeepSeek, ma passare tra Claude, GPT e Gemini con lo stesso codice, onehop è un percorso che fa risparmiare tempo: compatibile OpenAI/Anthropic, Base URL da cambiare in https://api.onehop.ai/v1, i nuovi account ricevono $10, prezzi inferiori a quelli ufficiali, nessuna carta richiesta.
Esempio con OpenAI SDK:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["ONEHOP_API_KEY"],
base_url="https://api.onehop.ai/v1",
)
resp = client.chat.completions.create(
model="claude-sonnet-4-5",
messages=[{"role": "user", "content": "用三点解释这个 API 迁移计划。"}],
)
print(resp.choices[0].message.content)
Anche l’Anthropic SDK può puntare allo stesso Base URL:
import anthropic, os
client = anthropic.Anthropic(
api_key=os.environ["ONEHOP_API_KEY"],
base_url="https://api.onehop.ai/v1",
)
Per una migrazione in produzione, io pianificherei così: oggi sostituire i vecchi nomi dei modelli; questa settimana far passare gli smoke test per entrambi i percorsi OpenAI/Anthropic; entro fine mese completare la logica di reinvio per modalità di ragionamento e tool call; prima di metà luglio eliminare tutti i deepseek-chat e deepseek-reasoner. Se vuoi mantenere meno configurazioni per diversi provider, puoi provarlo direttamente: chiamare Claude e altri modelli su onehop, oppure ricevere prima il credito e far funzionare la catena: registrati e ricevi $10 di credito di prova.
Letture correlate

Usare Groq GPT-OSS 120B con l’SDK OpenAI: URL base, prezzi e caching
Cambia l’URL base dell’SDK OpenAI per eseguire GPT-OSS 120B su Groq, stimare i costi dei token in cache ed evitare sorprese.
17 giugno 2026 · 26 min di lettura

Usare l’SDK OpenAI per chiamare l’API Gemini: guida alla migrazione modificando solo base_url, API Key e nome del modello
Checklist per migrare progetti con OpenAI SDK all’interfaccia compatibile Gemini, con codice, mappatura dei parametri e prezzi.
14 giugno 2026 · 9 min di lettura

Usare l’SDK OpenAI per chiamare l’API Gemini: guida all’integrazione modificando solo base_url, key e nome del modello
Integra Gemini in un codice già basato su OpenAI SDK con modifiche minime: bastano tre configurazioni.
14 giugno 2026 · 9 min di lettura