Gemini mit dem OpenAI SDK aufrufen: Integrationsanleitung mit nur base_url, API Key und Modellname

Google sagt es sehr direkt: Gemini models können über die Python- und TypeScript/JavaScript-SDKs von OpenAI aufgerufen werden; im Kern ändert man nur drei Codezeilen. Der in der offiziellen Kompatibilitätsdokumentation angegebene Endpunkt ist https://generativelanguage.googleapis.com/v1beta/openai/, das Beispielmodell ist gemini-3.5-flash (Google OpenAI-Kompatibilität). Für bestehende OpenAI-SDK-Projekte ist das sehr angenehm: Man muss nicht zuerst die Provider-Abstraktion auseinandernehmen und nicht den ganzen Aufruf-Stack ersetzen, sondern kann es erst einmal zum Laufen bringen.

Dreispaltiges Ablaufdiagramm auf cremefarbenem Hintergrund, linke Spalte mit OpenAI SDK beschriftet, mittlere Spalte mit drei Konfigurationen base_url / API Key / model, rechte Spalte mit Gemini API, terrakottafarbene Pfeile von links nach rechts, dünner anthrazitfarbener Rahmen

Prüfe zuerst, welches Modell du aufrufen willst

Stand 2026-06-14 führt die Modellseite von Google Gemini 3.5 Flash als Stable auf und gibt den Modellcode mit gemini-3.5-flash an; das Modell hat ein Eingabelimit von 1.048.576 Tokens und ein Ausgabelimit von 65.536 Tokens, unterstützt Text-, Bild-, Video-, Audio- und PDF-Eingaben und gibt Text aus (Gemini 3.5 Flash). Die Modellseite wurde zuletzt am 2026-05-19 UTC aktualisiert.

Auch die Preise sollte man in der tagesaktuellen Dokumentation nachsehen. Die Preisseite von Google wurde zuletzt am 2026-06-09 UTC aktualisiert; für gemini-3.5-flash im Standard paid tier werden Eingaben mit $1.50 / 1M tokens und Ausgaben mit $9.00 / 1M tokens angegeben, wobei der Ausgabepreis thinking tokens einschließt; Batch kostet $0.75 für Eingaben und $4.50 für Ausgaben (Gemini API-Preise).

Modell	Status	Eingabelimit	Standard-Eingabe	Standard-Ausgabe
`gemini-3.5-flash`	Stable	1,048,576	$1.50 / 1M tokens	$9.00 / 1M tokens
`gemini-3-flash-preview`	Preview	siehe Modellseite	$0.50 / 1M tokens	$3.00 / 1M tokens
`gemini-3.1-flash-lite`	Stable	siehe Modellseite	$0.25 / 1M tokens	$1.50 / 1M tokens

gemini-3-flash-preview und gemini-3.1-flash-lite stammen aus den aktuellen Modell- und Preisseiten von Google (Modelle, Preise). Preview-Modelle sollte man nicht direkt als Produktionsstandard setzen, denn Versionen und Limits können sich ändern.

Python: Den OpenAI-Client auf Gemini zeigen lassen

Zuerst das SDK installieren:

pip install openai
export GEMINI_API_KEY="你的 Gemini API Key"

Dann die Aufrufweise des OpenAI-SDK beibehalten:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["GEMINI_API_KEY"],
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/",
)

resp = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "你是一个简洁的工程助手。"},
        {"role": "user", "content": "用三句话解释什么是 API 兼容层。"},
    ],
)

print(resp.choices[0].message.content)

Die tatsächlichen Änderungen betreffen nur drei Stellen: api_key wird durch den Gemini-Key ersetzt, base_url durch den OpenAI-kompatiblen Endpunkt von Google, und model durch den Gemini-Modellnamen. Beachte, dass die URL im offiziellen Beispiel am Ende ein / hat; lösche es nicht leichtfertig, nur um danach 404-Fehler zu debuggen.

Kompakter Vorher-nachher-Codevergleich, links sind api.openai.com und der gpt-Modellname hervorgehoben, rechts generativelanguage.googleapis.com/v1beta/openai/ und gemini-3.5-flash, terrakottafarbene Markierungen

TypeScript: Ebenfalls baseURL

In einem Node-Projekt ist es genauso:

npm install openai
export GEMINI_API_KEY="你的 Gemini API Key"

import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.GEMINI_API_KEY,
  baseURL: "https://generativelanguage.googleapis.com/v1beta/openai/",
});

const response = await openai.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [
    { role: "user", content: "给我一个 JSON Schema 校验的最小例子。" },
  ],
});

console.log(response.choices[0].message.content);

Wenn dein Projekt den Provider bereits über Umgebungsvariablen gekapselt hat, ist die Änderung noch kleiner:

OPENAI_BASE_URL="https://generativelanguage.googleapis.com/v1beta/openai/"
OPENAI_API_KEY="$GEMINI_API_KEY"
OPENAI_MODEL="gemini-3.5-flash"

Die Stolperfalle vieler älterer Projekte liegt genau hier: Es ist egal, wenn die Variable weiterhin OPENAI_API_KEY heißt; ihr Wert kann ein Gemini-Key sein. Was wirklich bestimmt, wohin die Anfrage geht, ist base_url/baseURL.

Was ist mit Streaming, Tool-Aufrufen und thinking?

Die Kompatibilitätsdokumentation von Google enthält Beispiele für streaming, function calling, structured outputs, image understanding und mehr (OpenAI-Kompatibilität). Bestehende OpenAI-SDK-Projekte prüfen normalerweise zuerst drei Dinge: normales Chatten, stream=True und tools/function calling. Wenn das alles funktioniert, kümmert man sich anschließend um modellspezifische Fähigkeiten.

Mit thinking-Parametern sollte man vorsichtig sein. In der Kompatibilitätsdokumentation steht, dass OpenAIs reasoning_effort auf Geminis thinking-Konfiguration abgebildet wird; Gemini 3 und einige 2.5-Modelle können thinking jedoch nicht vollständig deaktivieren. Meine Empfehlung ist simpel: In der ersten Version thinking nicht anfassen, sondern zunächst mit den Standardwerten eine Qualitäts- und Kostenbasislinie aufbauen und erst danach in langen Aufgaben, Code-Agenten und komplexen Reasoning-Pipelines gesondert Last- und Qualitätstests durchführen.

Wenn du weniger Key-Sets verwalten willst

Eine direkte offizielle Anbindung eignet sich für ernsthafte Produktion: Abrechnung, Limits und Datenrichtlinien sind klar. Das Problem ist, dass Teams häufig nicht nur Gemini nutzen, sondern auch Claude, GPT und sogar unterschiedliche Tools mit unterschiedlichen Keys konfigurieren müssen. Der bequemere Weg ist onehop: Die base URL des OpenAI-SDK wird auf https://api.onehop.ai/v1 geändert, und über denselben OpenAI/Anthropic-kompatiblen Zugang lassen sich Claude/GPT/Gemini aufrufen; neue Konten erhalten $10, ohne Kreditkarte, ideal für erste Demos und interne Tools.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["ONEHOP_API_KEY"],
    base_url="https://api.onehop.ai/v1",
)

resp = client.chat.completions.create(
    model=os.environ["ONEHOP_MODEL"],
    messages=[{"role": "user", "content": "把这段日志总结成 5 条排障线索。"}],
)

print(resp.choices[0].message.content)

Hier lege ich model absichtlich in eine Umgebungsvariable: Die Modellnamen des Gateways richten sich nach der Konsole, also nicht fest im Code verdrahten. Wenn du weniger Aufwand mit Abrechnungen mehrerer Anbieter und Kompatibilitätsschichten haben möchtest, kannst du es direkt ausprobieren: Claude und andere Modelle über onehop aufrufen, oder zuerst Guthaben abholen: Bei Registrierung $10 Testguthaben erhalten.

Letzte Prüfung vor der Integration

Vor dem Go-live solltest du nicht nur prüfen, ob Text zurückkommt. Mindestens vier Checks sind nötig: Erstens bestätigen, dass das Modell auf der aktuellen Google-Modellseite weiterhin verfügbar ist; zweitens auf der Preisseite Eingabe-, Ausgabe-, Batch- und Search-grounding-Kosten gegenprüfen; drittens Fehlerlogs für 401, 429 und 5xx vollständig ausgeben; viertens base_url, api_key und model zur Laufzeit konfigurierbar machen, damit ein Modellwechsel nicht erst mit einem Release möglich ist.

Der Kern dieser Integration ist nicht, „den Modellanbieter zu wechseln“, sondern die SDK-Schicht vom Modellanbieter zu entkoppeln. Bringe zuerst gemini-3.5-flash über Googles offizielle OpenAI compatibility zum Laufen und entscheide dann, ob du direkt anbindest, ein Gateway nutzt oder beides parallel betreibst. So bleibt die Änderung klein und der Rollback schnell.

Gemini mit dem OpenAI SDK aufrufen: Integrationsanleitung mit nur base_url, API Key und Modellname

Prüfe zuerst, welches Modell du aufrufen willst

Python: Den OpenAI-Client auf Gemini zeigen lassen

TypeScript: Ebenfalls baseURL

Was ist mit Streaming, Tool-Aufrufen und thinking?

Wenn du weniger Key-Sets verwalten willst

Letzte Prüfung vor der Integration

Weitere Lekture

Qwen3.7 Plus mit dem OpenAI SDK über den DashScope-kompatiblen Modus aufrufen

Groq GPT-OSS 120B mit dem OpenAI SDK nutzen: Base-URL, Preise und Caching

Gemini API mit dem OpenAI SDK aufrufen: Migrationsanleitung mit nur base_url, API-Key und Modellname