Zuruck zu allen Artikeln
Benchmarks

GPT-5 vs. Gemini 2.5 Pro vs. Claude Opus 4 beim Aider-Polyglot-Coding

17. Juni 2026 · 23 Min. Lesezeit · Claude / GPT / Gemini

Cremefarbene redaktionelle Illustration von drei abstrakten Coding-Modellkarten, die über ein Polyglot-Testgitter rasen, mit Te

Die Bestenliste hat einen klaren Sieger

GPT-5 high liegt bei Aider Polyglot bei 88,0 %. Das sind 198 gelöste Fälle von 225, und das ist kein kleiner Ausschlag in der Bestenliste. Im selben Benchmark kommt Gemini 2.5 Pro Preview 06-05 mit 32k Thinking auf 83,1 %, während Claude Opus 4 mit 32k Thinking laut Aiders offizieller Polyglot-Bestenliste bei 72,0 % landet (Aider).

Diese Lücke ist relevant, weil Aider Polyglot kein Spielzeugtest nach dem Motto „schreib eine Fibonacci-Funktion“ ist. Aider beschreibt ihn als 225 Exercism-Coding-Aufgaben in C++, Go, Java, JavaScript, Python und Rust (Aider). Das Modell muss Code bearbeiten, einen gültigen Diff erzeugen und Tests zum Bestehen bringen. Das liegt deutlich näher am täglichen Alltag agentischen Codings als ein Single-Shot-Multiple-Choice-Benchmark.

Die Kurzfassung: GPT-5 gewinnt bei der rohen Erfolgsquote und den Kosten pro erfolgreichem Fix. Gemini liegt bei der Korrektheit nah dran und ist bei der Disziplin des Ausgabeformats deutlich besser. Claude Opus 4 wirkt in diesem speziellen Benchmark teuer und abgeschlagen, obwohl Anthropic es im Mai 2025 als Top-Coding-Modell eingeführt hat (Anthropic).

Horizontales Balkendiagramm zum Vergleich der Aider-Polyglot-Erfolgsquote: GPT-5 high mit 88,0 %, Gemini 2.5 Pro Preview 06-05 32k thinki

Rohergebnisse: Erfolgsquote, Kosten, Formatzuverlässigkeit

Hier ist die kompakte Übersicht. Das sind Aider-Laufergebnisse, keine Marketingzahlen der Anbieter.

Modell Aider-Laufdatum Erfolgsquote Gelöst / 225 Kosten pro Lauf Kosten pro gelöstem Fall Korrektes Edit-Format Edit-Format
GPT-5 high 2025-08-23 88,0 % 198 $29.08 $0.147 91,6 % diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83,1 % 187 $49.88 $0.267 99,6 % diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72,0 % 162 $65.75 $0.406 97,3 % diff

Die Unterschiede bei der Erfolgsquote sind einfach:

  • GPT-5 schlägt Gemini um 4,9 Prozentpunkte beziehungsweise um 11 zusätzlich gelöste Aufgaben.
  • GPT-5 schlägt Claude Opus 4 um 16,0 Punkte beziehungsweise um 36 zusätzlich gelöste Aufgaben.
  • Gemini schlägt Claude Opus 4 um 11,1 Punkte beziehungsweise um 25 zusätzlich gelöste Aufgaben.

Die Kostenunterschiede sind deutlicher. Die Laufkosten von GPT-5 liegen etwa 42 % unter denen von Gemini und 56 % unter denen von Claude. Claude kostet pro Lauf etwa 2,26-mal so viel wie GPT-5 und löst dabei 36 Fälle weniger.

Das ist hier der unbequeme Teil für Claude. Opus 4 liegt nicht nur zurück; es liegt zurück und kostet zugleich mehr.

Warum die Kostenlücke so groß ist

Der Listenpreis für Tokens erklärt den größten Teil davon.

OpenAI bepreiste GPT-5 beim Start der API-Modellfamilie mit $1.25 pro Million Input-Tokens und $10 pro Million Output-Tokens (OpenAI). Googles aktuelle Standardpreise für Gemini 2.5 Pro liegen ebenfalls bei $1.25 Input und $10 Output pro Million Tokens für Prompts bis 200k Tokens, mit höheren Preisen oberhalb von 200k (Google AI). Anthropics Claude Opus 4 wurde mit $15 Input und $75 Output pro Million Tokens bepreist, und Anthropics aktuelle Preisseite markiert Claude Opus 4 inzwischen als eingestellt, außer auf Vertex AI, führt diese historischen Preise aber weiterhin auf (Anthropic Docs).

Aiders Tokenverbrauch passt zu dieser Geschichte. Der Gemini-Lauf nutzte etwa 2,72 Mio. Prompt-Tokens und 4,65 Mio. Completion-Tokens, was nahezu exakt den gemeldeten Laufkosten von $49.88 bei einer $1.25/$10-Bepreisung entspricht. Der Claude-Lauf nutzte weniger Completion-Tokens, etwa 363k, aber der Output-Preis von Opus 4 mit $75/M trieb den Lauf trotzdem auf $65.75.

GPT-5 ist der interessante Fall. Es nutzte etwa 2,68 Mio. Prompt-Tokens und 2,62 Mio. Completion-Tokens. Es löste mehr Fälle als Gemini und gab dabei etwa 2,0 Mio. weniger Completion-Tokens aus. OpenAI sagte außerdem, GPT-5 habe bei Aider Polyglot 88 % erzielt, und bezeichnete das im Developer-Launch-Post als neuen Rekord (OpenAI).

Für Entwickler ist das der entscheidende Punkt: Benchmark-Kosten sind nicht nur Listenpreise. Es sind Listenpreise multipliziert mit der Neigung des Modells, zu denken, es erneut zu versuchen, zu erklären und große Diffs auszugeben.

Streudiagramm mit Kosten pro Aider-Lauf auf der x-Achse und Erfolgsquote auf der y-Achse; GPT-5 high oben links bei $29.08 und 88,0 %, Gemini 2

Edit-Format: Gemini ist der ordentlichste Operator

GPT-5 gewinnt den Benchmark, aber Gemini gewinnt die Spalte für Formatdisziplin.

Aider weist Gemini 2.5 Pro Preview 06-05 mit 99,6 % korrektem Edit-Format aus, bei nur einer fehlerhaften Antwort. Claude Opus 4 ist mit 97,3 % ebenfalls stark. GPT-5 high liegt mit 91,6 % niedriger und hatte im Lauf 22 fehlerhafte Antworten (Aider).

Das klingt nach einem kleinen Implementierungsdetail, bis man Agents in einem echten Repo laufen lässt. Ein schlechtes Edit-Format bedeutet verschwendete Turns, fehlgeschlagenes Anwenden von Patches oder dass ein Mensch das Tool retten muss. Wenn dein Workflow lautet: „Modell schlägt Diff vor, CI prüft, Agent iteriert“, dann ist Formatzuverlässigkeit Teil der Intelligenz.

Trotzdem hat GPT-5s niedrigerer Formatwert es nicht am Sieg gehindert. Das zeigt zwei Dinge. Erstens kann es sich erholen oder trotz mehr fehlerhafter Versuche genug korrekte Edits erzeugen. Zweitens ist die Erfolgsquote letztlich eine härtere Metrik als Sauberkeit. Ein perfekt formatierter falscher Patch ist immer noch falsch.

Eine vernünftige Lesart: Nutze GPT-5, wenn der schwierigste Teil darin besteht, den Bug zu lösen. Nutze Gemini, wenn deine Pipeline sehr empfindlich auf striktes Diff-Formatting reagiert und du einen kleinen Rückgang bei den gelösten Fällen tolerieren kannst.

Modellversionen und Datumsfallen

In diesem Vergleich gibt es eine Falle: Das sind historische Benchmark-Einträge, keine Aussage über jeden aktuellen Produktions-Endpunkt am 17. Juni 2026.

Gemini 2.5 Pro Preview 06-05 wurde am 5. Juni 2025 mit Adaptive Thinking veröffentlicht; Google veröffentlichte später am 17. Juni 2025 das stabile gemini-2.5-pro, und laut Changelog wurden die alten Preview-IDs später im Rahmen des Modelllebenszyklus abgeschaltet oder umgeleitet (Google AI changelog). Claude Opus 4 startete am 22. Mai 2025, und Anthropics Pricing-Dokumentation markiert Claude Opus 4 inzwischen als eingestellt, außer auf Vertex AI (Anthropic Docs). GPT-5 startete später, am 7. August 2025, und OpenAIs API-Post nennt gpt-5, gpt-5-mini und gpt-5-nano als die API-Größen zum Launch (OpenAI).

Der faire Vergleich lautet also: „Wie haben diese benannten Modelle in Aiders aufgezeichneten Läufen abgeschnitten?“ Nicht: „Welche neueste Modellfamilie welches Anbieters ist heute die beste?“

Diese Unterscheidung ist wichtig für Beschaffung und Engineering-Entscheidungen. Wenn dein Team heute ein Coding-Modell auswählt, führe eine kleine interne Eval auf eurem eigenen Stack erneut aus. Berücksichtige eure Repo-Größe, eure Testlatenz, euer bevorzugtes Edit-Format und eure tatsächliche Retry-Policy.

Ein minimales Harness kann langweilig und nützlich sein:

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

Miss anschließend gelöste Tickets, fehlgeschlagene Patch-Anwendungen, CI-Erfolge, Wall-Time und Dollar pro gemergtem Fix.

Was ich wählen würde

Wenn ich aus diesem Aider-Snapshot ein Modell für einen Coding-Agent auswählen müsste, würde ich mit GPT-5 high beginnen. Es hat die beste Erfolgsquote, die niedrigsten Laufkosten unter den dreien und die besten Kosten pro gelöstem Fall. Das korrekte Edit-Format von 91,6 % ist ein Makel, aber nicht genug, um eine Lösungsquote von 88,0 % aufzuwiegen.

Gemini 2.5 Pro ist die starke zweite Wahl. Seine Erfolgsquote von 83,1 % ist nah genug dran, dass Teams mit strikter Patch-Format-Automatisierung es ernsthaft prüfen sollten. Die Rate von 99,6 % beim korrekten Edit-Format ist hervorragend. Der Nachteil sind die Kosten in diesem Lauf: $49.88 sind viel Geld für 11 gelöste Fälle weniger als GPT-5.

Claude Opus 4 ist hier schwer zu verkaufen. Anthropic positionierte Opus 4 als ernstzunehmendes Coding- und Agent-Modell, und es leistete zum Launch auf anderen Coding-Benchmarks starke Arbeit, darunter SWE-bench- und Terminal-bench-Claims in Anthropics Release-Post (Anthropic). Aber bei Aider Polyglot ist genau dieser Opus-4-Lauf sowohl schwächer als auch teurer. Sofern eure interne Workload keine Claude-spezifischen Stärken zeigt, etwa Codebase-Gespür, Long-Context-Zusammenarbeit oder weniger destruktive Edits, rechtfertigen die Aider-Daten nicht, Opus 4 für diese Aufgabe GPT-5 oder Gemini vorzuziehen.

Die praktische Regel: Kaufe „bestes Coding-Modell“ nicht als Markenversprechen. Kaufe bestandene Tests pro Dollar, mit Edit-Zuverlässigkeit als Leitplanke.

Leser, die diese Modelle praktisch ausprobieren möchten, können sie über onehop mit einer OpenAI-kompatiblen API aufrufen, indem sie nur eine base_url ändern. Es ist günstiger als direkt beim Erstanbieter, enthält $10 Startguthaben für neue Accounts und erfordert keine Karte: Claude und andere Modelle über onehop aufrufen oder für $10 Startguthaben registrieren.