OpenAI SDK से Gemini API कॉल करना: base_url, मॉडल नाम और Gemini 3.5 Flash की कीमत कैसे सेट करें
14 जून 2026 · 10 मिनट पढ़ें · Claude / GPT / Gemini

Google के OpenAI-संगत दस्तावेज़ 2026-05-18 को अपडेट हुए, और सीधे लिखा है: Gemini मॉडल को OpenAI Python / JavaScript SDK के ज़रिए कॉल किया जा सकता है। मूल रूप से सिर्फ़ तीन जगह बदलाव चाहिए: api_key、base_url、model(Google)。आज 2026-06-14 है, और प्राइसिंग पेज पर gemini-3.5-flash के स्टैंडर्ड पेड टियर की कीमत यह दी गई है: इनपुट $1.50 / 100 万 token, आउटपुट, सोचने वाले token सहित, $9.00 / 100 万 token(Google Pricing)。
मेरा आकलन बहुत सरल है: अगर आपके पास पहले से OpenAI SDK प्रोजेक्ट है, तो अभी उसे दोबारा न लिखें। पहले Gemini को एक OpenAI-compatible backend की तरह जोड़ें, लागत, स्ट्रीमिंग और टूल कॉलिंग को चला कर देखें, फिर तय करें कि नेटिव Gemini SDK पर माइग्रेट करना है या नहीं।

1. न्यूनतम बदलाव: सिर्फ़ endpoint और मॉडल नाम बदलें
Python में पहले आधिकारिक OpenAI SDK इंस्टॉल करें:
pip install openai
export GEMINI_API_KEY="你的 Gemini API Key"
फिर client को इस तरह बदलें:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["GEMINI_API_KEY"],
base_url="https://generativelanguage.googleapis.com/v1beta/openai/",
)
resp = client.chat.completions.create(
model="gemini-3.5-flash",
reasoning_effort="low",
messages=[
{"role": "system", "content": "你是一个直接、准确的代码助手。"},
{"role": "user", "content": "用三句话解释 SSE 流式输出。"},
],
)
print(resp.choices[0].message.content)
chat.completions.create、messages、tools जैसी संरचनाएँ अब भी OpenAI Chat Completions शैली की हैं; OpenAI का अपना API रेफ़रेंस भी Chat Completions को संदेशों की सूची के आधार पर उत्तर生成 करने वाला इंटरफ़ेस बताता है(OpenAI)。इसलिए माइग्रेशन का मुख्य फ़ोकस बिज़नेस कोड नहीं, बल्कि कॉन्फ़िगरेशन लेयर है।
2. base_url के अंत का slash न छोड़ें
Google दस्तावेज़ में दिया गया address है:
https://generativelanguage.googleapis.com/v1beta/openai/
अगर आख़िरी / छूट जाए, तो कुछ clients path जोड़ते समय अजीब समस्याएँ पैदा कर सकते हैं। production code में इसे environment variable में निकालना बेहतर है:
OPENAI_BASE_URL="https://generativelanguage.googleapis.com/v1beta/openai/"
OPENAI_API_KEY="$GEMINI_API_KEY"
OPENAI_MODEL="gemini-3.5-flash"
अगर आप कई vendors के accounts, quotas और billing के बीच स्विच करने की झंझट कम करना चाहते हैं, तो onehop ज़्यादा आसान रास्ता है: base_url को https://api.onehop.ai/v1 में बदल दें, और उसी OpenAI / Anthropic compatible interface से Claude、GPT、Gemini कॉल करें। नए account को $10 मिलते हैं, card bind करने की ज़रूरत नहीं; पहले PoC करने और फिर official direct connection पर विचार करने के लिए उपयुक्त है।
from openai import OpenAI
client = OpenAI(
api_key="你的 onehop key",
base_url="https://api.onehop.ai/v1",
)
resp = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[{"role": "user", "content": "给我一个 FastAPI 健康检查接口"}],
)
print(resp.choices[0].message.content)
एंट्री यहाँ है: onehop पर Claude जैसे मॉडल कॉल करें、रजिस्टर करते ही $10 trial credit पाएं。
3. कीमत पहले output token के हिसाब से गिनें
gemini-3.5-flash का standard tier “इतना सस्ता कि ध्यान ही न देना पड़े” वाली चीज़ नहीं है। output price, input price से 6 गुना है:
| मॉडल | टियर | इनपुट / 100 万 token | आउटपुट / 100 万 token |
|---|---|---|---|
gemini-3.5-flash |
स्टैंडर्ड | $1.50 |
$9.00 |
gemini-3.5-flash |
बैच | $0.75 |
$4.50 |
gemini-3.5-flash |
Flex | $0.75 |
$4.50 |
Batch और Flex के आंकड़े भी उसी Google pricing page से हैं। application लिखते समय max_completion_tokens को सीमित करें, खासकर summarization, code generation और Agent tool loops में। input लंबा हो तो उसे cache किया जा सकता है, लेकिन output control से बाहर हुआ तो सीधा पैसा जलेगा।

4. reasoning_effort कैसे map होता है
Google compatibility layer OpenAI style का reasoning_effort स्वीकार करती है, और उसे Gemini की thinking configuration में map करती है(Google):
reasoning_effort |
Gemini 3 Flash thinking_level |
|---|---|
minimal |
minimal |
low |
low |
medium |
medium |
high |
high |
अगर इसे पास नहीं करते, तो model default value इस्तेमाल होती है। Google दस्तावेज़ में एक अहम सीमा भी लिखी है: Gemini 3 में thinking बंद नहीं किया जा सकता; none सिर्फ़ कुछ 2.5 models पर लागू होता है। मेरी सलाह है कि online default low रखें, और केवल complex planning या long-chain tool calling में ही medium या high पर बढ़ाएँ। क्योंकि output price में thinking token शामिल हैं, reasoning intensity कोई free knob नहीं है।
5. Streaming और function calling: इस्तेमाल हो सकते हैं, लेकिन empty chunks से बचाव करें
Streaming call में OpenAI SDK वाली writing style ही रखें:
stream = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[{"role": "user", "content": "写一个 Redis 缓存封装"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)
यहाँ if delta बहुत उपयोगी है। streaming response में role, tool call या empty delta हो सकता है; यह मानकर न चलें कि हर chunk में text होगा।
Function calling भी tools और tool_choice="auto" से चलती है। Google compatibility docs में weather function example दिया गया है, और यह भी confirm किया गया है कि Gemini API function calling support करती है(Google)。वास्तविक project में सिर्फ़ model का return print न करें; message.tool_calls जाँचें, local function execute करें, फिर tool result को अगली round message के रूप में model को वापस दें।
निष्कर्ष: Gemini पर migrate करने की न्यूनतम लागत सिर्फ़ तीन configuration lines हैं; असल में जिन चीज़ों पर नज़र रखनी है वे हैं output token, thinking intensity, streaming empty chunk और tool calling closed loop। अगर आप सिर्फ़ Claude、GPT、Gemini को एक ही OpenAI SDK project में जल्दी से जोड़ना चाहते हैं, तो onehop का unified entry सीधे इस्तेमाल करने से काफ़ी configuration time बचेगा: onehop पर Claude जैसे मॉडल कॉल करें, या पहले रजिस्टर करते ही $10 trial credit पाएं。
संबंधित लेख

OpenAI SDK के साथ Groq GPT-OSS 120B इस्तेमाल करें: Base URL, Pricing और Caching
OpenAI SDK का base URL बदलकर Groq पर GPT-OSS 120B चलाएँ, cached token लागत आँकें और tool billing surprises से बचें।
17 जून 2026 · 25 मिनट पढ़ें

OpenAI SDK से Gemini API कॉल करें: केवल base_url, API Key और मॉडल नाम बदलने वाला माइग्रेशन ट्यूटोरियल
मौजूदा OpenAI SDK प्रोजेक्ट्स के लिए Gemini संगत इंटरफ़ेस माइग्रेशन चेकलिस्ट, कोड, पैरामीटर मैपिंग और कीमतों सहित।
14 जून 2026 · 9 मिनट पढ़ें

OpenAI SDK से Gemini API कॉल करें: केवल base_url, key और मॉडल नाम बदलकर इंटीग्रेशन ट्यूटोरियल
मौजूदा OpenAI SDK कोड को Gemini से जोड़ने के लिए न्यूनतम बदलाव में सिर्फ तीन कॉन्फ़िगरेशन चाहिए।
14 जून 2026 · 9 मिनट पढ़ें