Gemini 3.1 Pro vs. GPT-5.2 vs. Claude Opus 4.6 auf Terminal-Bench 2.0

Die entscheidende Zahl: 68,5 %

Die Model Card von Google DeepMind für Gemini 3.1 Pro führt Gemini 3.1 Pro bei 68,5 % auf Terminal-Bench 2.0 mit dem Terminus-2-Harness. In derselben Tabelle erreicht Claude Opus 4.6 65,4 %, GPT-5.3-Codex 64,7 % und GPT-5.2 54,0 % unter derselben Harness-Zeile (Google DeepMind).

Das ist die sauberste direkte Vergleichszeile im aktuell öffentlich verfügbaren Material. Sie sagt: Wenn man diese Modelle durch dasselbe ausgewiesene Terminus-2-Setup laufen lässt, liegt Gemini 3.1 Pro vorn, Claude Opus 4.6 ist nah dran, GPT-5.3-Codex liegt im Grunde in derselben Größenordnung, und GPT-5.2 fällt deutlich zurück.

Aber hier steckt eine Falle. Terminal-Bench ist nicht nur ein Modell-Benchmark. Es ist ein Benchmark für Modell plus Agent plus Harness.

Die Terminal-Bench-2.0-Seite von Epoch AI beschreibt den Benchmark als Aufgaben, bei denen Agenten in einem echten Terminal arbeiten müssen: das Dateisystem verstehen, installierte Programme nutzen, über laufende Prozesse nachdenken und Aufgaben abschließen, ohne jeden Befehl vorgegeben zu bekommen. Außerdem heißt es dort, dass Scores für Modell-Agent-Kombinationen ausgewiesen werden, weil der Agent die Leistung spürbar verändern kann (Epoch AI). Dieser eine Satz sollte verändern, wie du jedes Leaderboard liest.

Horizontales Balkendiagramm auf cremefarbenem Hintergrund, das Terminal-Bench-2.0-Termin(us)-2-Scores vergleicht: Gemini 3.1 Pro 68,5, Claude Opu

Die Benchmark-Tabelle, die Entwickler wirklich nutzen sollten

Hier ist der nützliche Ausschnitt, beschränkt auf Zahlen, die ich aus Primärquellen verifizieren konnte.

Modell	Terminal-Bench-2.0-Score	Harness- / Quellenkontext	API-Preis, falls relevant
Gemini 3.1 Pro	68,5 %	Terminus-2-Harness in der Google Model Card	2 $/12 $ pro 1 Mio. Input-/Output-Token für Prompts ≤200k; 4 $/18 $ oberhalb von 200k (Google AI)
Claude Opus 4.6	65,4 %	Terminus-2-Harness in der Google Model Card; öffentliches Leaderboard gemäß Googles Methodik-Hinweis	5 $/25 $ pro 1 Mio. Input-/Output-Token (Anthropic)
GPT-5.3-Codex	64,7 %	Terminus-2-Harness in der Google Model Card	OpenAIs Provider-Run meldet 77,3 % mit Codex CLI, nicht demselben Harness (OpenAI)
GPT-5.2	54,0 %	Terminus-2-Harness in der Google Model Card	1,75 $/14 $ pro 1 Mio. Input-/Output-Token (OpenAI)

Die Reihenfolge unter Terminus-2 ist eindeutig: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

Der größere Engineering-Punkt ist weniger ordentlich. Googles eigenes Methodik-PDF sagt, dass Gemini-Scores selbst berechnet werden, während Zahlen für Nicht-Gemini-Modelle in der Regel vom Provider gemeldet werden, sofern nicht anders angegeben. Speziell für Terminal-Bench 2.0 heißt es, dass Gemini 3.1 Pro selbst berechnet wurde, andere Modelle aus dem öffentlichen Leaderboard stammen und Ergebnisse sowohl für den Standard-Harness Terminus-2 als auch, wo zutreffend, für andere beste selbst gemeldete Harnesses ausgewiesen werden (Google-DeepMind-Methodik-PDF).

Die faire Lesart lautet also nicht: „Gemini schlägt alle haushoch.“ Sondern: Gemini führt den gemeinsamen Terminus-2-Vergleich mit 3,1 Prozentpunkten vor Claude und 3,8 Punkten vor GPT-5.3-Codex an. GPT-5.2 ist in diesem Setup klar abgeschlagen.

Warum GPT-5.3-Codex zwei verschiedene Geschichten hat

Die verwirrendste Zeile ist GPT-5.3-Codex.

Googles Model Card gibt dafür 64,7 % auf dem Terminus-2-Harness an. Eine Zeile darunter listet dieselbe Karte Zahlen für „other best self-reported harness“: GPT-5.2 bei 62,2 % mit Codex und GPT-5.3-Codex bei 77,3 % mit Codex (Google DeepMind). OpenAIs eigene Ankündigung zu GPT-5.3-Codex meldet ebenfalls 77,3 % auf Terminal-Bench 2.0, mit xhigh Reasoning Effort, und positioniert das Modell ausdrücklich als Coding-Agent-Modell für Codex (OpenAI).

Beides kann wahr sein.

Ein CLI-Coding-Agent ist keine zustandslose Chat-Completion. Der Harness entscheidet, wie Dateien offengelegt werden, wie Befehle ausgeführt werden, wie Patches angewendet werden, wie Zustand zusammengefasst wird, wie oft sich das Modell von einem falschen Pfad erholen kann und manchmal auch, wie der Reasoning Effort ausgewählt wird. Wenn du Codex CLI verwendest, ist OpenAIs Zahl von 77,3 % relevant. Wenn du Modelle innerhalb desselben Drittanbieter-Agent-Harness vergleichst, ist die Terminus-2-Zahl von 64,7 % der sauberere Vergleich.

Diese Unterscheidung lässt sich direkt auf die Praxis übertragen:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

Wenn dein Team einen eigenen CLI-Agenten baut, kopiere nicht einfach den besten Harness-Score eines Providers in eine Tabelle und nenne das Modellqualität. Behandle ihn als Systemqualität: Modell, Tool-Loop, Memory, Retry-Policy, Patch-Mechanik, Sandbox und Prompt-Vertrag.

Flussdiagramm, das zeigt, wie eine „Entwickleraufgabe“ in einen Agent-Harness eingeht und sich in Modell, Terminal-Tools, Dateisystemzustand,

Was Terminal-Bench 2.0 besser misst als SWE-Bench

SWE-Bench ist weiterhin nützlich, aber Terminal-Bench findet einen anderen Fehlermodus. Ein Modell kann einen plausiblen Patch generieren und trotzdem schlecht darin sein, in einer Shell zu arbeiten.

Zu den Terminal-Bench-Aufgaben gehören Dinge wie das Bauen eines Linux-Kernels in QEMU, das Konfigurieren eines Git-Webservers, das Knacken eines 7z-Hashs für ein bereitgestelltes Secret, das Erzeugen von OpenSSL-Zertifikaten und das Umformen von Datendateien. Die Terminal-Bench-Website beschreibt Version 2.0 als 89 hochwertige Aufgaben aus Software Engineering, Machine Learning, Security, Data Science und mehr (Terminal-Bench).

Das ist wichtig, weil CLI-Agenten auf langweilige, teure Weise scheitern:

Sie vergessen, wo sie sich im Dateisystem befinden.
Sie führen einen Befehl aus, ignorieren stderr und patchen die falsche Datei.
Sie bestehen sichtbare Tests, verpassen aber die versteckte Invariante.
Sie verbrennen Token beim Erkunden, statt einen Plan zu formulieren.
Sie bleiben nach einer fehlgeschlagenen Installation oder einem flaky Test stecken.

Bei solchen Aufgaben ist Gemini 3.1 Pros Terminus-2-Score von 68,5 % beeindruckend, weil er auf starkes Verhalten in der Command-Loop hindeutet, nicht nur auf Code-Synthese. Claude Opus 4.6 liegt mit 65,4 % nah genug dran, dass ich einen ausgereiften Claude-Code-Workflow nicht allein wegen der Benchmark-Differenz migrieren würde. GPT-5.2 mit 54,0 % wäre das Modell, das ich für anspruchsvolle Terminal-Automatisierung meiden würde, es sei denn, die Kosten sind die dominierende Einschränkung oder man hat einen sehr starken Harness darum herum.

Ein Modell für einen CLI-Coding-Agenten auswählen

Mein praktisches Ranking hängt davon ab, was du einkaufst.

Wenn du den stärksten Terminal-Score im gemeinsamen Harness willst, beginne mit Gemini 3.1 Pro. Es führt die verifizierte Vergleichszeile an und ist bei der normalen Token-Preisgestaltung unterhalb von 200k Prompt-Token günstiger als Claude Opus 4.6. Der Haken: Für Large-Repo-Prompts oberhalb von 200k steigt Googles veröffentlichter Preis von 2 $/12 $ auf 4 $/18 $ pro 1 Mio. Input-/Output-Token, daher brauchen Long-Context-Agent-Runs Budgets und Cache-Disziplin (Google AI).

Wenn du bereits einen Claude-lastigen Workflow betreibst, bleibt Claude Opus 4.6 eine starke Wahl. Anthropic hat Opus 4.6 am 5. Februar 2026 veröffentlicht, mit stärkerem Coding, besserer Leistung bei längeren agentischen Aufgaben und einem Kontextfenster von 1 Mio. Token in der Beta für die Entwicklerplattform (Anthropic). Sein Terminus-2-Score von 65,4 % liegt nah an Gemini. Der Preis ist höher: 5 $ Input und 25 $ Output pro Million Token im Standardtarif.

Wenn du die beste Codex-spezifische Terminal-Zahl willst, verdient GPT-5.3-Codex eine separate Evaluation. Sein providerseitig gemeldeter Terminal-Bench-2.0-Score von 77,3 % ist an OpenAIs Codex-Setup gebunden, während die gemeinsame Terminus-2-Zeile 64,7 % ausweist. Das ist kein Widerspruch. Es ist ein Warnhinweis.

Wenn du GPT-5.2 betrachtest, ist das Argument Kosten und allgemeine Leistungsfähigkeit, nicht maximale Terminal-Agency. OpenAI bepreist GPT-5.2 mit 1,75 $/14 $ pro Million Input-/Output-Token und sagt, dass es xhigh Reasoning Effort in der API unterstützt (OpenAI). Aber in der gemeinsamen Terminal-Bench-2.0-Zeile sind 54,0 % eine große Lücke.

Fazit

Für terminalbasierte Coding-Agenten würde ich die Modelle so in die engere Auswahl nehmen: Gemini 3.1 Pro für die beste Terminal-Bench-2.0-Leistung im gemeinsamen Harness, Claude Opus 4.6 für Teams, die Long-Context-Coding-Zuverlässigkeit schätzen und Claude-Workflows bereits vertrauen, GPT-5.3-Codex, wenn die Ziel-Laufzeit Codex selbst ist, und GPT-5.2 nur dann, wenn Preis oder API-Verfügbarkeit wichtiger sind als die Erfolgsrate im Terminal.

Die wichtigste Lehre ist methodisch. Ein Terminal-Bench-Score ist nie nur „das Modell“. Für Entwickler, die CLI-Agenten bauen, ist der Harness Teil des Produkts. Verfolge beide Zahlen: den Shared-Harness-Score, der dir rohe Portabilität zeigt, und den Provider-Harness-Score, der zeigt, was der vollständige native Stack leisten kann.

Leser, die diese Modelle praktisch ausprobieren möchten, können Claude und andere Modelle über onehop mit einer OpenAI-kompatiblen API aufrufen: ein base_url ändern, den Rest des Clients weitgehend gleich lassen und die Kosten mit First-Party-Routen vergleichen. Neue Accounts erhalten 10 $ kostenloses Guthaben ohne Kreditkarte: Claude und andere Modelle auf onehop aufrufen oder für 10 $ kostenloses Guthaben registrieren.

Gemini 3.1 Pro vs. GPT-5.2 vs. Claude Opus 4.6 auf Terminal-Bench 2.0

Die entscheidende Zahl: 68,5 %

Die Benchmark-Tabelle, die Entwickler wirklich nutzen sollten

Warum GPT-5.3-Codex zwei verschiedene Geschichten hat

Was Terminal-Bench 2.0 besser misst als SWE-Bench

Ein Modell für einen CLI-Coding-Agenten auswählen

Fazit

Weitere Lekture

GPT-5 vs. Gemini 2.5 Pro vs. Claude Opus 4 beim Aider-Polyglot-Coding

Groq GPT-OSS 120B mit dem OpenAI SDK nutzen: Base-URL, Preise und Caching

Grok Build in Warp mit einem SuperGrok- oder X-Premium-Abonnement nutzen