Retour a tous les articles
Benchmarks

GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 sur le benchmark de codage Aider Polyglot

17 juin 2026 · 23 min de lecture · Claude / GPT / Gemini

Illustration éditoriale sur fond crème de trois cartes abstraites de modèles de codage faisant la course sur une grille de test polyglotte, avec te

Le tableau des scores a un vainqueur clair

GPT-5 high est à 88,0 % sur Aider Polyglot. Cela représente 198 cas résolus sur 225, et ce n’est pas une petite fluctuation de classement. Sur le même benchmark, Gemini 2.5 Pro Preview 06-05 avec 32k thinking atteint 83,1 %, tandis que Claude Opus 4 avec 32k thinking atteint 72,0 %, selon le classement Polyglot officiel d’Aider (Aider).

Cet écart compte, car Aider Polyglot n’est pas un test jouet du type « écrire une fonction Fibonacci ». Aider le décrit comme 225 exercices de codage Exercism en C++, Go, Java, JavaScript, Python et Rust (Aider). Le modèle doit modifier du code, produire un diff valide et faire passer les tests. C’est beaucoup plus proche du quotidien du codage agentique qu’un benchmark QCM en un seul tir.

Le titre à retenir : GPT-5 gagne sur le taux de réussite brut et le coût par correction réussie. Gemini est proche sur la justesse et nettement meilleur sur la discipline de format de sortie. Claude Opus 4 paraît cher et en retrait sur ce benchmark précis, malgré son lancement par Anthropic en mai 2025 comme modèle de codage de premier plan (Anthropic).

Diagramme en barres horizontal comparant le taux de réussite Aider Polyglot pour GPT-5 high à 88,0 %, Gemini 2.5 Pro Preview 06-05 32k thinki

Résultats bruts : taux de réussite, coût, fiabilité du format

Voici la vue synthétique. Il s’agit de résultats d’exécutions Aider, pas de chiffres marketing de fournisseurs.

Modèle Date d’exécution Aider Taux de réussite Résolus / 225 Coût par exécution Coût par cas résolu Format d’édition correct Format d’édition
GPT-5 high 2025-08-23 88,0 % 198 29,08 $ 0,147 $ 91,6 % diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83,1 % 187 49,88 $ 0,267 $ 99,6 % diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72,0 % 162 65,75 $ 0,406 $ 97,3 % diff

Les écarts de taux de réussite sont simples :

  • GPT-5 bat Gemini de 4,9 points de pourcentage, soit 11 tâches résolues de plus.
  • GPT-5 bat Claude Opus 4 de 16,0 points, soit 36 tâches résolues de plus.
  • Gemini bat Claude Opus 4 de 11,1 points, soit 25 tâches résolues de plus.

Les écarts de coût sont plus marqués. Le coût d’exécution de GPT-5 est environ 42 % inférieur à celui de Gemini et 56 % inférieur à celui de Claude. Claude coûte environ 2,26x plus que GPT-5 par exécution tout en résolvant 36 cas de moins.

C’est la partie inconfortable pour Claude ici. Opus 4 n’est pas simplement derrière ; il est derrière tout en coûtant plus cher.

Pourquoi l’écart de coût est si important

Le prix catalogue des tokens l’explique en grande partie.

OpenAI a tarifé GPT-5 à 1,25 $ par million de tokens d’entrée et 10 $ par million de tokens de sortie lors du lancement de la famille de modèles API (OpenAI). La tarification standard actuelle de Gemini 2.5 Pro chez Google est également de 1,25 $ en entrée et 10 $ en sortie par million de tokens pour les prompts jusqu’à 200k tokens, avec des tarifs plus élevés au-delà de 200k (Google AI). Claude Opus 4 d’Anthropic était tarifé à 15 $ en entrée et 75 $ en sortie par million de tokens, et la page de tarification actuelle d’Anthropic indique désormais que Claude Opus 4 est retiré sauf sur Vertex AI, tout en listant encore ces tarifs historiques (Docs Anthropic).

L’usage des tokens relevé par Aider colle à cette histoire. L’exécution Gemini a utilisé environ 2,72 M de tokens de prompt et 4,65 M de tokens de complétion, ce qui correspond presque exactement au coût d’exécution déclaré de 49,88 $ avec une tarification à 1,25 $/10 $. L’exécution Claude a utilisé moins de tokens de complétion, environ 363k, mais le prix de sortie d’Opus 4 à 75 $/M a tout de même porté l’exécution à 65,75 $.

GPT-5 est le cas intéressant. Il a utilisé environ 2,68 M de tokens de prompt et 2,62 M de tokens de complétion. Il a résolu plus de cas que Gemini tout en émettant environ 2,0 M de tokens de complétion en moins. OpenAI a également indiqué que GPT-5 avait obtenu 88 % sur Aider Polyglot et a décrit ce score comme un nouveau record dans son billet de lancement destiné aux développeurs (OpenAI).

Pour les développeurs, voilà le point important : le coût d’un benchmark n’est pas seulement le prix catalogue. C’est le prix catalogue multiplié par la tendance du modèle à réfléchir, réessayer, expliquer et émettre de gros diffs.

Nuage de points avec le coût par exécution Aider en abscisse et le taux de réussite en ordonnée ; GPT-5 high en haut à gauche à 29,08 $ et 88,0 %, Gemini 2

Format d’édition : Gemini est l’opérateur le plus propre

GPT-5 remporte le benchmark, mais Gemini remporte la colonne de discipline du format.

Aider rapporte Gemini 2.5 Pro Preview 06-05 à 99,6 % de format d’édition correct, avec une seule réponse mal formée. Claude Opus 4 est également solide à 97,3 %. GPT-5 high est plus bas à 91,6 %, avec 22 réponses mal formées sur l’ensemble de l’exécution (Aider).

Cela ressemble à un petit détail d’implémentation jusqu’à ce que vous exécutiez des agents dans un vrai dépôt. Un mauvais format d’édition signifie des tours gaspillés, un échec d’application du patch, ou un humain contraint de sauver l’outil. Si votre workflow est « le modèle propose un diff, la CI vérifie, l’agent itère », la fiabilité du format fait partie de l’intelligence.

Cela dit, le score de format plus faible de GPT-5 ne l’a pas empêché de gagner. Cela nous dit deux choses. D’abord, il peut récupérer ou produire suffisamment d’éditions correctes malgré davantage de tentatives mal formées. Ensuite, le taux de réussite est au final une métrique plus sévère que la propreté. Un patch faux mais parfaitement formaté reste faux.

Lecture raisonnable : utilisez GPT-5 quand le plus difficile est de résoudre le bug. Utilisez Gemini quand votre pipeline est très sensible au formatage strict des diffs et que vous pouvez tolérer une légère baisse du nombre de cas résolus.

Versions des modèles et pièges de dates

Il y a un piège dans cette comparaison : ce sont des entrées de benchmark historiques, pas une affirmation sur tous les endpoints de production actuels au 17 juin 2026.

Gemini 2.5 Pro Preview 06-05 est sorti le 5 juin 2025 avec adaptive thinking ; Google a ensuite publié la version stable gemini-2.5-pro le 17 juin 2025, et son journal des changements indique que les anciens ID de preview ont ensuite été arrêtés ou redirigés dans le cadre du cycle de vie du modèle (journal des changements Google AI). Claude Opus 4 a été lancé le 22 mai 2025, et la documentation tarifaire d’Anthropic indique désormais que Claude Opus 4 est retiré sauf sur Vertex AI (Docs Anthropic). GPT-5 est arrivé plus tard, le 7 août 2025, et le billet API d’OpenAI liste gpt-5, gpt-5-mini et gpt-5-nano comme les tailles d’API disponibles au lancement (OpenAI).

La comparaison équitable est donc : « Comment ces modèles nommés ont-ils performé dans les exécutions enregistrées par Aider ? » Ce n’est pas : « Quelle famille de modèles la plus récente d’un fournisseur est la meilleure aujourd’hui ? »

Cette distinction compte pour les achats comme pour les décisions d’ingénierie. Si votre équipe choisit aujourd’hui un modèle de codage, relancez une petite évaluation interne sur votre propre stack. Incluez la taille de votre dépôt, la latence de vos tests, votre format d’édition préféré et votre politique réelle de retry.

Un harnais minimal peut être ennuyeux et utile :

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

Mesurez ensuite les tickets résolus, les échecs d’application de patch, les passages CI, le temps réel écoulé et les dollars par correction mergée.

Ce que je choisirais

Si je devais choisir un seul modèle dans cet instantané Aider pour un agent de codage, je commencerais par GPT-5 high. Il a le meilleur taux de réussite, le coût d’exécution le plus bas des trois et le meilleur coût par cas résolu. Les 91,6 % de format d’édition correct sont une imperfection, mais pas suffisante pour effacer un taux de résolution de 88,0 %.

Gemini 2.5 Pro est le solide deuxième choix. Son taux de réussite de 83,1 % est suffisamment proche pour que les équipes ayant une automatisation stricte du format des patches le prennent au sérieux. Le taux de format d’édition correct de 99,6 % est excellent. L’inconvénient est le coût dans cette exécution : 49,88 $, c’est beaucoup pour 11 cas résolus de moins que GPT-5.

Claude Opus 4 est difficile à vendre ici. Anthropic a positionné Opus 4 comme un modèle sérieux pour le codage et les agents, et il a obtenu de bons résultats sur d’autres benchmarks de codage au lancement, notamment les revendications SWE-bench et Terminal-bench dans le billet de lancement d’Anthropic (Anthropic). Mais sur Aider Polyglot, cette exécution précise d’Opus 4 est à la fois plus faible et plus chère. À moins que votre charge de travail interne ne montre des forces spécifiques à Claude, comme le goût du codebase, la collaboration en contexte long ou moins d’éditions destructrices, les données Aider ne justifient pas de choisir Opus 4 plutôt que GPT-5 ou Gemini pour cette tâche.

La règle pratique : n’achetez pas le « meilleur modèle de codage » comme une promesse de marque. Achetez des tests réussis par dollar, avec la fiabilité des éditions comme garde-fou.

Les lecteurs qui veulent essayer ces modèles directement peuvent les appeler via onehop avec une API compatible OpenAI en modifiant un seul base_url. C’est moins cher que les fournisseurs de première partie, inclut 10 $ de crédit gratuit pour les nouveaux comptes et ne nécessite pas de carte : appeler Claude et d’autres modèles sur onehop, ou s’inscrire pour obtenir 10 $ de crédit gratuit.