OpenAI SDK से Gemini API कॉल करना: base_url, मॉडल नाम और Gemini 3.5 Flash की कीमत कैसे सेट करें

Google के OpenAI-संगत दस्तावेज़ 2026-05-18 को अपडेट हुए, और सीधे लिखा है: Gemini मॉडल को OpenAI Python / JavaScript SDK के ज़रिए कॉल किया जा सकता है। मूल रूप से सिर्फ़ तीन जगह बदलाव चाहिए: api_key、base_url、model（Google）。आज 2026-06-14 है, और प्राइसिंग पेज पर gemini-3.5-flash के स्टैंडर्ड पेड टियर की कीमत यह दी गई है: इनपुट $1.50 / 100 万 token, आउटपुट, सोचने वाले token सहित, $9.00 / 100 万 token（Google Pricing）。

मेरा आकलन बहुत सरल है: अगर आपके पास पहले से OpenAI SDK प्रोजेक्ट है, तो अभी उसे दोबारा न लिखें। पहले Gemini को एक OpenAI-compatible backend की तरह जोड़ें, लागत, स्ट्रीमिंग और टूल कॉलिंग को चला कर देखें, फिर तय करें कि नेटिव Gemini SDK पर माइग्रेट करना है या नहीं।

मटमैले सफ़ेद बैकग्राउंड पर माइग्रेशन से पहले और बाद की तुलना वाली इमेज; बाईं ओर OpenAI SDK कॉन्फ़िगरेशन कार्ड, दाईं ओर Gemini कॉन्फ़िगरेशन कार्ड; बीच में केवल api_key、base_url、model की तीन लाइनों के बदलाव हाईलाइट हैं, और टेराकोटा रंग का तीर दोनों तरफ़ों को जोड़ता है

1. न्यूनतम बदलाव: सिर्फ़ endpoint और मॉडल नाम बदलें

Python में पहले आधिकारिक OpenAI SDK इंस्टॉल करें:

pip install openai
export GEMINI_API_KEY="你的 Gemini API Key"

फिर client को इस तरह बदलें:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["GEMINI_API_KEY"],
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/",
)

resp = client.chat.completions.create(
    model="gemini-3.5-flash",
    reasoning_effort="low",
    messages=[
        {"role": "system", "content": "你是一个直接、准确的代码助手。"},
        {"role": "user", "content": "用三句话解释 SSE 流式输出。"},
    ],
)

print(resp.choices[0].message.content)

chat.completions.create、messages、tools जैसी संरचनाएँ अब भी OpenAI Chat Completions शैली की हैं; OpenAI का अपना API रेफ़रेंस भी Chat Completions को संदेशों की सूची के आधार पर उत्तर生成 करने वाला इंटरफ़ेस बताता है（OpenAI）。इसलिए माइग्रेशन का मुख्य फ़ोकस बिज़नेस कोड नहीं, बल्कि कॉन्फ़िगरेशन लेयर है।

2. base_url के अंत का slash न छोड़ें

Google दस्तावेज़ में दिया गया address है:

https://generativelanguage.googleapis.com/v1beta/openai/

अगर आख़िरी / छूट जाए, तो कुछ clients path जोड़ते समय अजीब समस्याएँ पैदा कर सकते हैं। production code में इसे environment variable में निकालना बेहतर है:

OPENAI_BASE_URL="https://generativelanguage.googleapis.com/v1beta/openai/"
OPENAI_API_KEY="$GEMINI_API_KEY"
OPENAI_MODEL="gemini-3.5-flash"

अगर आप कई vendors के accounts, quotas और billing के बीच स्विच करने की झंझट कम करना चाहते हैं, तो onehop ज़्यादा आसान रास्ता है: base_url को https://api.onehop.ai/v1 में बदल दें, और उसी OpenAI / Anthropic compatible interface से Claude、GPT、Gemini कॉल करें। नए account को $10 मिलते हैं, card bind करने की ज़रूरत नहीं; पहले PoC करने और फिर official direct connection पर विचार करने के लिए उपयुक्त है।

from openai import OpenAI

client = OpenAI(
    api_key="你的 onehop key",
    base_url="https://api.onehop.ai/v1",
)

resp = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "给我一个 FastAPI 健康检查接口"}],
)
print(resp.choices[0].message.content)

एंट्री यहाँ है: onehop पर Claude जैसे मॉडल कॉल करें、रजिस्टर करते ही $10 trial credit पाएं。

3. कीमत पहले output token के हिसाब से गिनें

gemini-3.5-flash का standard tier “इतना सस्ता कि ध्यान ही न देना पड़े” वाली चीज़ नहीं है। output price, input price से 6 गुना है:

मॉडल	टियर	इनपुट / 100 万 token	आउटपुट / 100 万 token
`gemini-3.5-flash`	स्टैंडर्ड	`$1.50`	`$9.00`
`gemini-3.5-flash`	बैच	`$0.75`	`$4.50`
`gemini-3.5-flash`	Flex	`$0.75`	`$4.50`

Batch और Flex के आंकड़े भी उसी Google pricing page से हैं। application लिखते समय max_completion_tokens को सीमित करें, खासकर summarization, code generation और Agent tool loops में। input लंबा हो तो उसे cache किया जा सकता है, लेकिन output control से बाहर हुआ तो सीधा पैसा जलेगा।

कॉम्पैक्ट bar chart; horizontal axis पर standard、batch、Flex तीन tiers हैं, vertical axis डॉलर प्रति million token है; हर group में दो bars हैं, input charcoal gray में और output terracotta में, output price के ज़्यादा होने को उभारता है

4. reasoning_effort कैसे map होता है

Google compatibility layer OpenAI style का reasoning_effort स्वीकार करती है, और उसे Gemini की thinking configuration में map करती है（Google）：

`reasoning_effort`	Gemini 3 Flash `thinking_level`
`minimal`	`minimal`
`low`	`low`
`medium`	`medium`
`high`	`high`

अगर इसे पास नहीं करते, तो model default value इस्तेमाल होती है। Google दस्तावेज़ में एक अहम सीमा भी लिखी है: Gemini 3 में thinking बंद नहीं किया जा सकता; none सिर्फ़ कुछ 2.5 models पर लागू होता है। मेरी सलाह है कि online default low रखें, और केवल complex planning या long-chain tool calling में ही medium या high पर बढ़ाएँ। क्योंकि output price में thinking token शामिल हैं, reasoning intensity कोई free knob नहीं है।

5. Streaming और function calling: इस्तेमाल हो सकते हैं, लेकिन empty chunks से बचाव करें

Streaming call में OpenAI SDK वाली writing style ही रखें:

stream = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "写一个 Redis 缓存封装"}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

यहाँ if delta बहुत उपयोगी है। streaming response में role, tool call या empty delta हो सकता है; यह मानकर न चलें कि हर chunk में text होगा।

Function calling भी tools और tool_choice="auto" से चलती है। Google compatibility docs में weather function example दिया गया है, और यह भी confirm किया गया है कि Gemini API function calling support करती है（Google）。वास्तविक project में सिर्फ़ model का return print न करें; message.tool_calls जाँचें, local function execute करें, फिर tool result को अगली round message के रूप में model को वापस दें।

निष्कर्ष: Gemini पर migrate करने की न्यूनतम लागत सिर्फ़ तीन configuration lines हैं; असल में जिन चीज़ों पर नज़र रखनी है वे हैं output token, thinking intensity, streaming empty chunk और tool calling closed loop। अगर आप सिर्फ़ Claude、GPT、Gemini को एक ही OpenAI SDK project में जल्दी से जोड़ना चाहते हैं, तो onehop का unified entry सीधे इस्तेमाल करने से काफ़ी configuration time बचेगा: onehop पर Claude जैसे मॉडल कॉल करें, या पहले रजिस्टर करते ही $10 trial credit पाएं。

OpenAI SDK से Gemini API कॉल करना: base_url, मॉडल नाम और Gemini 3.5 Flash की कीमत कैसे सेट करें

1. न्यूनतम बदलाव: सिर्फ़ endpoint और मॉडल नाम बदलें

2. base_url के अंत का slash न छोड़ें

3. कीमत पहले output token के हिसाब से गिनें

4. reasoning_effort कैसे map होता है

5. Streaming और function calling: इस्तेमाल हो सकते हैं, लेकिन empty chunks से बचाव करें

संबंधित लेख

DashScope Compatible Mode के ज़रिए OpenAI SDK से Qwen3.7 Plus कॉल करें

OpenAI SDK के साथ Groq GPT-OSS 120B इस्तेमाल करें: Base URL, Pricing और Caching

OpenAI SDK से Gemini API कॉल करें: केवल base_url, API Key और मॉडल नाम बदलने वाला माइग्रेशन ट्यूटोरियल