Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 sur Terminal-Bench 2.0

Le chiffre qui compte : 68,5 %

La fiche modèle de Gemini 3.1 Pro de Google DeepMind place Gemini 3.1 Pro à 68,5 % sur Terminal-Bench 2.0 avec le banc Terminus-2. Dans le même tableau, Claude Opus 4.6 obtient 65,4 %, GPT-5.3-Codex 64,7 % et GPT-5.2 54,0 % sur cette même ligne de banc (Google DeepMind).

C’est la comparaison la plus propre, à périmètre égal, dans les éléments publics actuels. Elle dit ceci : si vous exécutez ces modèles avec la même configuration Terminus-2 déclarée, Gemini 3.1 Pro est devant, Claude Opus 4.6 est proche, GPT-5.3-Codex est globalement dans la même plage, et GPT-5.2 accuse un net retard.

Mais il y a un piège. Terminal-Bench n’est pas seulement un benchmark de modèle. C’est un benchmark modèle plus agent plus banc d’exécution.

La page Terminal-Bench 2.0 d’Epoch AI décrit le benchmark comme des tâches où les agents doivent opérer dans un vrai terminal : comprendre le système de fichiers, utiliser les programmes installés, raisonner sur les processus en cours d’exécution et terminer des tâches sans qu’on leur dicte chaque commande. Elle précise aussi que les scores sont rapportés pour des combinaisons modèle-agent, car l’agent peut modifier significativement les performances (Epoch AI). Cette seule phrase devrait changer votre lecture de chaque classement.

Diagramme en barres horizontales sur fond crème comparant les scores Terminal-Bench 2.0 Terminus-2 : Gemini 3.1 Pro 68,5, Claude Opu

Le tableau de benchmark que les développeurs devraient vraiment utiliser

Voici la coupe utile, limitée aux chiffres que j’ai pu vérifier à partir de sources primaires.

Modèle	Score Terminal-Bench 2.0	Banc / contexte de la source	Prix API, le cas échéant
Gemini 3.1 Pro	68,5 %	Banc Terminus-2 dans la fiche modèle de Google	2 $/12 $ par million de tokens d’entrée/sortie pour les prompts ≤200k ; 4 $/18 $ au-delà de 200k (Google AI)
Claude Opus 4.6	65,4 %	Banc Terminus-2 dans la fiche modèle de Google ; classement public selon la note méthodologique de Google	5 $/25 $ par million de tokens d’entrée/sortie (Anthropic)
GPT-5.3-Codex	64,7 %	Banc Terminus-2 dans la fiche modèle de Google	L’exécution fournisseur d’OpenAI rapporte 77,3 % avec Codex CLI, ce qui n’est pas le même banc (OpenAI)
GPT-5.2	54,0 %	Banc Terminus-2 dans la fiche modèle de Google	1,75 $/14 $ par million de tokens d’entrée/sortie (OpenAI)

L’ordre sous Terminus-2 est simple : Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

Le point d’ingénierie le plus important est moins net. Le PDF méthodologique de Google indique que les scores Gemini sont calculés en interne, tandis que les chiffres des modèles non-Gemini sont généralement rapportés par les fournisseurs, sauf indication contraire. Pour Terminal-Bench 2.0 en particulier, il précise que Gemini 3.1 Pro est calculé en interne, que les autres modèles proviennent du classement public, et que les résultats sont rapportés à la fois pour le banc Terminus-2 par défaut et, le cas échéant, pour d’autres meilleurs bancs déclarés par les fournisseurs eux-mêmes (PDF méthodologique Google DeepMind).

La lecture équitable n’est donc pas « Gemini écrase tout le monde ». C’est : Gemini mène la comparaison partagée Terminus-2 avec 3,1 points de pourcentage d’avance sur Claude et 3,8 points sur GPT-5.3-Codex. GPT-5.2 est clairement à la traîne dans cette configuration.

Pourquoi GPT-5.3-Codex raconte deux histoires différentes

La ligne la plus déroutante est celle de GPT-5.3-Codex.

La fiche modèle de Google lui attribue 64,7 % avec le banc Terminus-2. Une ligne plus bas, la même fiche liste les chiffres des « autres meilleurs bancs déclarés par les fournisseurs » : GPT-5.2 à 62,2 % avec Codex, et GPT-5.3-Codex à 77,3 % avec Codex (Google DeepMind). L’annonce de GPT-5.3-Codex par OpenAI rapporte aussi 77,3 % sur Terminal-Bench 2.0, avec un effort de raisonnement xhigh, et présente explicitement le modèle comme un modèle d’agent de codage pour Codex (OpenAI).

Les deux peuvent être vrais.

Un agent de codage CLI n’est pas une complétion de chat sans état. Le banc décide comment les fichiers sont exposés, comment les commandes sont exécutées, comment les correctifs sont appliqués, comment l’état est résumé, à quelle fréquence le modèle peut récupérer après une mauvaise piste et, parfois, comment l’effort de raisonnement est choisi. Si vous utilisez Codex CLI, le chiffre de 77,3 % d’OpenAI est pertinent. Si vous comparez des modèles dans le même banc d’agent tiers, le chiffre Terminus-2 de 64,7 % est la comparaison la plus propre.

Cette distinction correspond directement aux usages réels :

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

Si votre équipe construit son propre agent CLI, ne copiez pas le meilleur score de banc d’un fournisseur dans un tableur en l’appelant qualité du modèle. Traitez-le comme une qualité système : modèle, boucle d’outils, mémoire, politique de retry, mécanique de patch, sandbox et contrat de prompt.

Schéma de flux montrant une « tâche développeur » entrant dans un banc d’agent, se divisant en modèle, outils de terminal, état du système de fichiers,

Ce que Terminal-Bench 2.0 mesure mieux que SWE-Bench

SWE-Bench reste utile, mais Terminal-Bench capture un autre mode d’échec. Un modèle peut générer un patch plausible et rester mauvais quand il s’agit de vivre dans un shell.

Les tâches Terminal-Bench incluent par exemple la compilation d’un noyau Linux dans QEMU, la configuration d’un serveur web Git, le cassage d’un hash 7z pour un secret fourni, la génération de certificats OpenSSL et la transformation de fichiers de données. Le site de Terminal-Bench décrit la version 2.0 comme 89 tâches de haute qualité couvrant l’ingénierie logicielle, le machine learning, la sécurité, la data science et plus encore (Terminal-Bench).

C’est important parce que les agents CLI échouent de façons banales et coûteuses :

Ils oublient où ils se trouvent dans le système de fichiers.
Ils exécutent une commande, ignorent stderr et patchent le mauvais fichier.
Ils réussissent les tests visibles mais ratent l’invariant caché.
Ils brûlent des tokens à explorer au lieu de former un plan.
Ils restent bloqués après une installation échouée ou un test flaky.

Sur ces tâches, le score Terminus-2 de 68,5 % de Gemini 3.1 Pro est impressionnant, car il suggère un comportement solide dans la boucle de commandes, pas seulement une bonne synthèse de code. Claude Opus 4.6, à 65,4 %, est suffisamment proche pour que je ne migre pas un workflow Claude Code mature sur la seule base de l’écart de benchmark. GPT-5.2, à 54,0 %, est celui que j’éviterais pour l’automatisation terminal difficile, sauf si le coût est la contrainte dominante ou si vous avez un banc très robuste autour de lui.

Choisir un modèle pour un agent de codage CLI

Mon classement pratique dépend de ce que vous achetez.

Si vous voulez le meilleur score terminal à banc partagé, commencez par Gemini 3.1 Pro. Il mène la ligne de comparaison vérifiée et coûte moins cher que Claude Opus 4.6 sur la tarification standard au token sous 200k tokens de prompt. Le bémol : pour les prompts de grands dépôts au-delà de 200k, le prix affiché par Google passe de 2 $/12 $ à 4 $/18 $ par million de tokens d’entrée/sortie, donc les exécutions d’agents à long contexte nécessitent des budgets et une discipline de cache (Google AI).

Si vous avez déjà un workflow fortement basé sur Claude, Claude Opus 4.6 reste un choix solide. Anthropic a publié Opus 4.6 le 5 février 2026, avec de meilleures capacités de codage, de meilleures performances sur les tâches agentiques longues et une fenêtre de contexte d’un million de tokens en bêta pour la plateforme développeur (Anthropic). Son score Terminus-2 de 65,4 % est proche de celui de Gemini. Le prix est plus élevé : 5 $ en entrée et 25 $ en sortie par million de tokens dans la tarification standard.

Si vous voulez le meilleur chiffre terminal spécifique à Codex, GPT-5.3-Codex mérite une évaluation séparée. Son score Terminal-Bench 2.0 de 77,3 %, rapporté par le fournisseur, est lié à la configuration Codex d’OpenAI, tandis que la ligne Terminus-2 partagée est à 64,7 %. Ce n’est pas une contradiction. C’est un avertissement.

Si vous envisagez GPT-5.2, l’argument porte sur le coût et les capacités générales, pas sur le niveau maximal d’agence terminal. OpenAI tarifie GPT-5.2 à 1,75 $/14 $ par million de tokens d’entrée/sortie et indique qu’il prend en charge l’effort de raisonnement xhigh dans l’API (OpenAI). Mais sur la ligne Terminal-Bench 2.0 partagée, 54,0 % représente un écart important.

Conclusion

Pour les agents de codage basés sur le terminal, je présélectionnerais les modèles ainsi : Gemini 3.1 Pro pour les meilleures performances Terminal-Bench 2.0 à banc partagé, Claude Opus 4.6 pour les équipes qui valorisent la fiabilité du codage à long contexte et font déjà confiance aux workflows Claude, GPT-5.3-Codex lorsque l’environnement d’exécution cible est Codex lui-même, et GPT-5.2 seulement lorsque le prix ou la disponibilité de l’API compte davantage que le taux de réussite dans le terminal.

La leçon principale est méthodologique. Un score Terminal-Bench n’est jamais seulement « le modèle ». Pour les développeurs qui construisent des agents CLI, le banc fait partie du produit. Suivez les deux chiffres : le score à banc partagé, qui vous indique la portabilité brute, et le score avec le banc du fournisseur, qui vous indique ce que la pile native complète peut faire.

Les lecteurs qui veulent essayer ces modèles directement peuvent appeler Claude et d’autres modèles sur onehop avec une API compatible OpenAI : changez un seul base_url, gardez le reste du client quasiment identique et comparez les coûts avec les routes first-party. Les nouveaux comptes reçoivent 10 $ de crédit gratuit sans carte requise : appeler Claude et d’autres modèles sur onehop, ou s’inscrire pour obtenir 10 $ de crédit gratuit.

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 sur Terminal-Bench 2.0

Le chiffre qui compte : 68,5 %

Le tableau de benchmark que les développeurs devraient vraiment utiliser

Pourquoi GPT-5.3-Codex raconte deux histoires différentes

Ce que Terminal-Bench 2.0 mesure mieux que SWE-Bench

Choisir un modèle pour un agent de codage CLI

Conclusion

Lectures liees

GPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro sur SWE-Bench Pro

GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 sur le benchmark de codage Aider Polyglot

Appeler Qwen3.7 Plus avec le SDK OpenAI via le mode compatible DashScope