DeepSeek API को deepseek-v4-flash / deepseek-v4-pro पर माइग्रेट करना: OpenAI और Anthropic के दो संगत फ़ॉर्मैट में कैसे चुनें

2026-06-14 को DeepSeek API देखते समय, सबसे पहले बदलने लायक चीज़ prompt नहीं, बल्कि मॉडल नाम है। DeepSeek के चीनी मूल्य पृष्ठ पर बात बहुत साफ़ लिखी है: deepseek-chat और deepseek-reasoner बीजिंग समय 2026/07/24 23:59 पर deprecated हो जाएंगे; संगतता अवधि के दौरान, पहला deepseek-v4-flash के non-thinking mode से मेल खाता है, और दूसरा deepseek-v4-flash के thinking mode से मेल खाता है（DeepSeek मूल्य पृष्ठ）。अगर आपके production code में अभी भी पुराने नाम लिखे हैं, तो आख़िरी हफ़्ते तक इंतज़ार न करें।

मटमैली सफ़ेद पृष्ठभूमि वाला टाइमलाइन चित्र, बाईं ओर 2026-06-14 मौजूदा चेकपॉइंट अंकित, दाईं ओर 2026-07-24 23:59 बीजिंग समय deprecation बिंदु अंकित, बीच में टेराकोटा रंग के तीर से जुड़ा हुआ, पुराने मॉडल नाम धूसर होकर फीके पड़ते हुए, नए मॉडल नाम चारकोल ग्रे में हाइलाइट

पहले इंटरफ़ेस फ़ॉर्मैट चुनें: अपने ecosystem को देखें, आस्था को नहीं

DeepSeek अभी दो compatibility entry points देता है: OpenAI फ़ॉर्मैट https://api.deepseek.com, Anthropic फ़ॉर्मैट https://api.deepseek.com/anthropic（DeepSeek पहली बार API कॉल करना）。

मेरी सलाह बहुत सरल है:

आपकी मौजूदा स्थिति	कौन सा चुनें	कारण
पहले से OpenAI SDK, LangChain, LlamaIndex, Vercel AI SDK के Chat Completions का उपयोग कर रहे हैं	OpenAI फ़ॉर्मैट	`base_url` और `model` में सबसे कम बदलाव
पहले से Anthropic SDK, Claude Code, Messages API संरचना का उपयोग कर रहे हैं	Anthropic फ़ॉर्मैट	`system`、`messages.create`、`max_tokens` की आदत नहीं बदलती
अपना HTTP wrapper लिखा है	OpenAI फ़ॉर्मैट प्राथमिकता से	debugging सामग्री ज़्यादा है, फ़ील्ड ज़्यादा सामान्य हैं
Claude toolchain को reuse करना है	Anthropic फ़ॉर्मैट	DeepSeek स्पष्ट रूप से Anthropic API ecosystem को support करता है（DeepSeek Anthropic API）

एक गड्ढा: Anthropic फ़ॉर्मैट में, DeepSeek मॉडल नाम mapping करेगा। आधिकारिक docs में साफ़ लिखा है कि claude-opus से शुरू होने वाले नाम deepseek-v4-pro पर map होंगे, और claude-haiku या claude-sonnet से शुरू होने वाले नाम deepseek-v4-flash पर map होंगे। फिर भी मैं सलाह देता हूँ कि स्पष्ट रूप से deepseek-v4-pro या deepseek-v4-flash लिखें; production behavior को implicit mapping के भरोसे न छोड़ें।

मॉडल नाम बदलना: compatible alias पर निर्भर रहना बंद करें

migration table में केवल दो पंक्तियाँ हैं:

पुराना मॉडल नाम	अभी compatible है	अनुशंसित लेखन
`deepseek-chat`	`deepseek-v4-flash` non-thinking mode	`deepseek-v4-flash` + thinking बंद करें
`deepseek-reasoner`	`deepseek-v4-flash` thinking mode	`deepseek-v4-flash` या `deepseek-v4-pro` + thinking चालू करें

अगर आप पहले deepseek-reasoner को code review, जटिल SQL, लंबी लेखकीय reasoning में इस्तेमाल करते थे, तो इसी मौके पर deepseek-v4-pro का मूल्यांकन कर सकते हैं। अगर सिर्फ़ customer service, summary, classification है, तो deepseek-v4-flash default choice जैसा है।

मॉडल family migration चित्र, बाईं ओर दो पुराने मॉडल कार्ड deepseek-chat और deepseek-reasoner, दाईं ओर दो नए मॉडल कार्ड deepseek-v4-flash और deepseek-v4-pro, अलग-अलग line styles से non-thinking और thinking mode दिखाए गए, टेराकोटा रंग से推 को उभारा गया

OpenAI फ़ॉर्मैट: न्यूनतम बदलाव वाला संस्करण

DeepSeek का OpenAI फ़ॉर्मैट अभी भी Chat Completions पर चलता है। OpenAI का आधिकारिक interface भी POST /v1/chat/completions वाली message list शैली है（OpenAI API Reference）, इसलिए ज़्यादातर SDK में केवल दो जगह बदलाव चाहिए।

# pip install openai
import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com",
)

resp = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "你是一个严谨的代码审查助手。"},
        {"role": "user", "content": "检查这段 Python 代码的潜在 bug。"},
    ],
    extra_body={"thinking": {"type": "disabled"}},
    stream=False,
)

print(resp.choices[0].message.content)

thinking mode चालू करने के लिए, आख़िरी हिस्से को यह कर दें:

reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}}

DeepSeek का thinking mode default रूप से enabled है; OpenAI SDK में thinking को extra_body में रखना होता है; thinking intensity high और max को support करती है（DeepSeek thinking mode）。अगर आपकी tool calling chain assistant message को वापस भेजती है, तो एक सख़्त नियम याद रखें: tool call से जुड़े thinking mode rounds में, बाद की requests में reasoning_content को पूरा वापस भेजना होगा, वरना 400 आएगा।

Anthropic फ़ॉर्मैट: Claude toolchain के लिए पीछे का दरवाज़ा रखें

अगर आपने पहले से Anthropic Messages API के आसपास system prompt, max_tokens, client.messages.create() लिखा है, तो सीधे Base URL बदल दें:

# pip install anthropic
import os
import anthropic

client = anthropic.Anthropic(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/anthropic",
)

msg = client.messages.create(
    model="deepseek-v4-pro",
    max_tokens=1000,
    system="你是一个资深后端工程师。",
    messages=[{"role": "user", "content": "给我一个 Redis 缓存穿透的修复方案。"}],
    thinking={"type": "enabled"},
    output_config={"effort": "high"},
)

print(msg.content)

Anthropic की आधिकारिक Messages API भी messages.create वाली यही संरचना है, core fields में model、max_tokens、system、messages शामिल हैं（Anthropic Messages API）。इसलिए Anthropic फ़ॉर्मैट चुनने का असली कारण “ज़्यादा advanced” होना नहीं, बल्कि Claude ecosystem code में कम बदलाव करना है।

लागत अनुमान: पहले cache miss मानकर चलें

DeepSeek का चीनी मूल्य पृष्ठ प्रति मिलियन tokens के हिसाब से charge करता है: deepseek-v4-flash input cache hit 0.02 युआन, input miss 1 युआन, output 2 युआन; deepseek-v4-pro input cache hit 0.025 युआन, input miss 3 युआन, output 6 युआन（DeepSeek मूल्य पृष्ठ）。

एक मोटा हिसाब: हर महीने 200M input, 50M output, पहले पूरी मात्रा को miss मानकर गणना करें।

मॉडल	input लागत	output लागत	कुल
`deepseek-v4-flash`	200 युआन	100 युआन	300 युआन
`deepseek-v4-pro`	600 युआन	300 युआन	900 युआन

वास्तविक बिल cache hit से प्रभावित होगा। RAG, Agent, लंबे system prompt करते समय, स्थिर prefix को आगे रखें; hit rate ऊपर आने के बाद input लागत स्पष्ट रूप से घटेगी। migration के पहले दिन ही सबसे आशावादी cache numbers से budget न बनाएं।

relay interface users: सुविधा के लिए onehop इस्तेमाल कर सकते हैं

अगर आपका लक्ष्य केवल DeepSeek से जुड़ना नहीं, बल्कि उसी codebase में Claude, GPT, Gemini switch करना है, तो onehop समय बचाने वाला रास्ता है: OpenAI/Anthropic compatible, Base URL को https://api.onehop.ai/v1 में बदलें, नए account को $10 मिलते हैं, कीमत official से कम है, card binding की ज़रूरत नहीं।

OpenAI SDK उदाहरण:

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["ONEHOP_API_KEY"],
    base_url="https://api.onehop.ai/v1",
)

resp = client.chat.completions.create(
    model="claude-sonnet-4-5",
    messages=[{"role": "user", "content": "用三点解释这个 API 迁移计划。"}],
)
print(resp.choices[0].message.content)

Anthropic SDK को भी उसी Base URL की ओर point किया जा सकता है:

import anthropic, os

client = anthropic.Anthropic(
    api_key=os.environ["ONEHOP_API_KEY"],
    base_url="https://api.onehop.ai/v1",
)

production migration को मैं इस तरह schedule करूँगा: आज पुराने मॉडल नाम बदल दें; इस हफ़्ते OpenAI/Anthropic दोनों paths के smoke test चलाकर पास करें; महीने के अंत से पहले thinking mode और tool call की return-passback logic पूरी करें; जुलाई के मध्य से पहले सभी deepseek-chat、deepseek-reasoner हटा दें। अगर आप कई vendor configurations कम maintain करना चाहते हैं, तो सीधे आज़मा सकते हैं: onehop पर Claude आदि मॉडल call करें, या पहले quota लेकर chain को चलाकर देखें: register करते ही $10 trial quota पाएं。

DeepSeek API को deepseek-v4-flash / deepseek-v4-pro पर माइग्रेट करना: OpenAI और Anthropic के दो संगत फ़ॉर्मैट में कैसे चुनें

पहले इंटरफ़ेस फ़ॉर्मैट चुनें: अपने ecosystem को देखें, आस्था को नहीं

मॉडल नाम बदलना: compatible alias पर निर्भर रहना बंद करें

OpenAI फ़ॉर्मैट: न्यूनतम बदलाव वाला संस्करण

Anthropic फ़ॉर्मैट: Claude toolchain के लिए पीछे का दरवाज़ा रखें

लागत अनुमान: पहले cache miss मानकर चलें

relay interface users: सुविधा के लिए onehop इस्तेमाल कर सकते हैं

संबंधित लेख

DashScope Compatible Mode के ज़रिए OpenAI SDK से Qwen3.7 Plus कॉल करें

OpenAI SDK के साथ Groq GPT-OSS 120B इस्तेमाल करें: Base URL, Pricing और Caching

OpenAI SDK से Gemini API कॉल करें: केवल base_url, API Key और मॉडल नाम बदलने वाला माइग्रेशन ट्यूटोरियल