Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro : comparaison des prix API pour le long contexte

La page GPT-5.5 d’OpenAI indique une fenêtre de contexte de 1 050 000 tokens et des tarifs de 5 $ en entrée / 30 $ en sortie par million de tokens. Anthropic indique Claude Opus 4.8 à 5 $ / 25 $, avec un contexte de 1M sur l’API Claude. Google tarifie Gemini 3.1 Pro Preview à 2 $ / 12 $ jusqu’à des prompts de 200K tokens, puis 4 $ / 18 $ au-dessus de 200K.

Voilà tout l’enjeu du long contexte en une phrase : GPT-5.5 vous donne la plus grande fenêtre annoncée et un tarif de sortie premium, Claude Opus 4.8 couvre le workflow de classe 1M avec une sortie moins chère, et Gemini 3.1 Pro Preview présente l’avantage tarifaire le plus net, surtout lorsque vos prompts restent sous les 200K tokens.

Graphique comparatif horizontal façon couverture avec trois colonnes pour GPT-5.5, Claude Opus 4.8 et Gemini 3.1 Pro Preview ; chac

Le tableau de prix dont les développeurs ont vraiment besoin

Voici les tarifs publics actuels des API de première partie, issus de la documentation des fournisseurs, vérifiés sur les pages officielles le 15 juin 2026.

Modèle	Entrée / 1M tokens	Sortie / 1M tokens	Contexte max	Limite de sortie	Seuil tarifaire
GPT-5.5	5,00 $	30,00 $	1 050 000	128 000	Aucun palier lié à la taille du prompt indiqué
Claude Opus 4.8	5,00 $	25,00 $	1M sur l’API Claude	128 000	Aucun palier lié à la taille du prompt indiqué
Gemini 3.1 Pro Preview	2,00 $ jusqu’à 200K de prompt, 4,00 $ au-dessus	12,00 $ jusqu’à 200K de prompt, 18,00 $ au-dessus	1M en entrée	64K	Le prix d’entrée double au-dessus de 200K

La documentation du modèle d’OpenAI décrit GPT-5.5 comme un modèle frontière destiné au travail professionnel complexe et indique 5 $ en entrée, 0,50 $ en entrée mise en cache et 30 $ en sortie par million de tokens, ainsi que la fenêtre de 1 050 000 tokens (OpenAI). La page publique de tarification d’Anthropic indique Opus 4.8 à 5 $ en entrée, 25 $ en sortie, 6,25 $ pour l’écriture en cache et 0,50 $ pour la lecture en cache par million de tokens (tarifs Anthropic). Les notes du modèle Opus 4.8 indiquent qu’il prend en charge par défaut un contexte de 1M tokens sur l’API Claude, Amazon Bedrock et Vertex AI, avec 200K sur Microsoft Foundry (docs Anthropic). La page de tarification de Google indique gemini-3.1-pro-preview à 2 $ / 12 $ pour les prompts jusqu’à 200K tokens et à 4 $ / 18 $ au-delà de 200K (tarifs Google) ; le guide Gemini 3 indique un contexte d’entrée de 1M et jusqu’à 64K en sortie pour les modèles Gemini 3 (guide Google Gemini 3).

Le piège : « par million de tokens » donne l’impression que les prix sont linéaires. Gemini n’est pas entièrement linéaire. Le palier lié à la taille du prompt compte.

Le seuil de coût : 200K tokens, c’est la ligne de démarcation

Pour beaucoup d’agents développeur, 200K tokens, ce n’est pas énorme. Un repo de taille moyenne plus package-lock.json, quelques fichiers générés et un document de conception peuvent le dépasser. Un corpus de contrats juridiques ou une archive de support client peut faire de même encore plus vite.

Exemples approximatifs de coûts de première partie :

Charge de travail	GPT-5.5	Claude Opus 4.8	Gemini 3.1 Pro Preview
100K en entrée + 10K en sortie	0,80 $	0,75 $	0,32 $
250K en entrée + 25K en sortie	2,00 $	1,88 $	1,45 $
1M en entrée + 50K en sortie	6,50 $	6,25 $	4,90 $

Hypothèses : tarification standard des tokens texte uniquement, pas de remises batch, pas d’économies propres au fournisseur via le cache, pas de frais d’outils supplémentaires, et application du palier supérieur de Gemini lorsque le prompt dépasse 200K tokens. Les factures réelles peuvent varier si vous utilisez la mise en cache de prompts, des API batch, des modes prioritaires, des modes rapides, des outils ou des relances.

Le point à retenir est simple. Sous 200K tokens de prompt, Gemini 3.1 Pro Preview est nettement moins cher au prix catalogue. Au-dessus de 200K, il reste moins cher que GPT-5.5 et Opus 4.8 dans ces exemples, mais l’écart se réduit. Claude et GPT ont des surfaces tarifaires plus plates, donc les prévisions de coûts sont plus simples lorsque la taille des prompts varie énormément.

Graphique linéaire montrant le coût estimé d’une requête avec 10K de sortie fixe et une taille d’entrée de 50K à 1M tokens ; Gemini présente un seuil visibl

Fenêtre de contexte ne veut pas dire contexte utile

Une fenêtre de 1M tokens vous permet d’éviter une partie de l’ingénierie de retrieval. Elle ne supprime pas le besoin de sélection, de compression et d’évaluations.

Pour l’analyse d’un repo complet, j’éviterais tout de même de déverser tout le dépôt par défaut. Donnez d’abord au modèle un manifeste : arborescence des fichiers, métadonnées de packages, scripts de build, graphe de dépendances, fichiers récemment modifiés et échecs de tests. Ajoutez ensuite les fichiers pertinents. Le long contexte doit surtout servir de marge de respiration, pas d’excuse pour arrêter de concevoir l’agent.

Claude Opus 4.8 est explicitement positionné par Anthropic pour le « raisonnement complexe, le codage agentique à long horizon et le travail à forte autonomie » dans ses notes de modèle (docs Anthropic). La même page met en avant des améliorations du codage agentique à long horizon, du déclenchement d’outils, de la récupération après compaction et de la qualité en long contexte. Ce sont exactement les modes d’échec qui apparaissent dans de vrais agents de codage après la deuxième heure : contraintes oubliées, appels d’outils sautés et mauvaise récupération après résumé.

OpenAI positionne GPT-5.5 pour le « codage et le travail professionnel » et lui donne la plus grande fenêtre de contexte listée ici : 1 050 000 tokens (OpenAI). Ces 50K supplémentaires par rapport à un 1M nominal ne suffisent pas à eux seuls à le choisir, mais c’est une marge utile lorsque votre couche d’orchestration ajoute des messages système, des schémas d’outils, des traces et des fichiers récupérés.

Google décrit Gemini 3.1 Pro Preview comme le modèle Pro pour une large connaissance du monde, le raisonnement avancé multimodal, les capacités agentiques et le vibe-coding sur la page de tarification et dans le guide Gemini 3 (tarifs Google, guide Google Gemini 3). Il prend aussi en charge une variante gemini-3.1-pro-preview-customtools, que Google recommande lorsque les applications combinent Bash et des outils personnalisés et doivent faire en sorte que le modèle privilégie les outils personnalisés. C’est un indice très spécifique pour les bâtisseurs d’agents.

Choix par scénario

Si vous construisez un agent de codage pour repo complet, commencez par Claude Opus 4.8 ou GPT-5.5, puis benchmarkez Gemini 3.1 Pro Preview sur vos propres traces. Le tarif de sortie à 25 $ de Claude lui donne un avantage de coût direct sur GPT-5.5 pour la planification détaillée de patchs, la revue de code et les boucles d’outils en plusieurs étapes. GPT-5.5 a la plus grande fenêtre annoncée et un positionnement fort sur le codage et le travail professionnel. Je choisirais GPT-5.5 lorsque le workflow bénéficie de l’écosystème Responses API d’OpenAI ou lorsque votre stack existante est déjà native OpenAI.

Si vous construisez un agent d’analyse très orienté documents, Gemini 3.1 Pro Preview est le premier modèle que je testerais côté coût. À 100K en entrée et 10K en sortie, l’estimation au prix catalogue est de 0,32 $, soit moins de la moitié de Claude Opus 4.8 et GPT-5.5 dans le tableau ci-dessus. Si vos prompts dépassent souvent 200K, surveillez le seuil. Il n’est pas rédhibitoire, mais il change votre cible d’optimisation : gardez les boilerplates fréquemment répétés en cache ou résumés, et évitez de joindre chaque page de PDF lorsqu’un sous-ensemble routé suffit.

Si vous avez besoin de prévisions de coûts stables, Claude Opus 4.8 est le plus simple des trois. Même prix d’entrée de 5 $ que GPT-5.5, sortie moins chère, contexte de 1M et aucun palier de prompt à 200K dans la tarification indiquée. Pour les équipes qui vendent des exécutions d’agents comme fonctionnalité, le coût de sortie prévisible compte.

Si vous voulez le point d’entrée long contexte flagship le moins cher, Gemini gagne sur le prix catalogue de première partie. Le compromis est son statut preview et la frontière de palier. Considérez-le comme un candidat sérieux, pas comme un choix par défaut permanent.

Un pattern de routage pratique

Ne codez pas en dur un seul modèle flagship dans votre produit. Routez selon la taille du prompt, le risque en sortie et le type de tâche.

Une politique de départ raisonnable :

if prompt_tokens <= 200_000 and task is document-heavy:
    try Gemini 3.1 Pro Preview
elif task is long-running coding agent:
    try Claude Opus 4.8
elif task needs OpenAI-native agent tooling or the largest listed window:
    try GPT-5.5
else:
    run a small eval set across all three

Si vous voulez tester ces modèles sans intégrer trois fournisseurs, onehop est la voie simple : changez une seule URL de base vers https://api.onehop.ai/v1, utilisez des appels compatibles OpenAI/Anthropic, et routez Claude, GPT et Gemini depuis un seul endroit. onehop indique être moins cher que les fournisseurs de première partie, offrir 10 $ de crédit gratuit aux nouveaux comptes et ne pas exiger de carte.

Exemple avec le style du SDK OpenAI :

from openai import OpenAI

client = OpenAI(
    api_key="ONEHOP_API_KEY",
    base_url="https://api.onehop.ai/v1",
)

response = client.chat.completions.create(
    model="claude-opus-4-8",
    messages=[
        {"role": "user", "content": "Review this repo manifest and list the riskiest files."}
    ],
)

print(response.choices[0].message.content)

L’important, ce n’est pas le SDK. C’est la discipline : même tâche, mêmes fichiers, même grille de scoring, trois modèles. Mesurez le coût par exécution réussie, pas le coût par token pris isolément.

Conclusion

Pour le 15 juin 2026, mes recommandations par défaut sont :

Choisissez d’abord Gemini 3.1 Pro Preview pour les workloads riches en documents sous 200K tokens de prompt.
Choisissez d’abord Claude Opus 4.8 pour les agents de codage longue durée où le coût de sortie et la fiabilité des outils comptent.
Choisissez d’abord GPT-5.5 lorsque vous voulez une infrastructure d’agents native OpenAI ou la plus grande fenêtre de contexte listée.
Retestez au-dessus de 200K tokens, car le palier tarifaire de Gemini change le calcul.
Utilisez la mise en cache de prompts et le routage avant de transformer votre prompt finement optimisé en un énorme blob coûteux.

Le long contexte est désormais un prérequis. Le vrai choix est de savoir où votre agent dépense l’argent : volume d’entrée, verbosité de sortie, relances ou erreurs d’outils. Si vous voulez un seul endpoint pour les comparer rapidement, vous pouvez appeler Claude et d’autres modèles sur onehop, puis vous inscrire pour obtenir 10 $ de crédit gratuit et lancer vos propres traces d’évaluation avant de vous engager.

Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro : comparaison des prix API pour le long contexte

Le tableau de prix dont les développeurs ont vraiment besoin

Le seuil de coût : 200K tokens, c’est la ligne de démarcation

Fenêtre de contexte ne veut pas dire contexte utile

Choix par scénario

Un pattern de routage pratique

Conclusion

Lectures liees

Appeler Qwen3.7 Plus avec le SDK OpenAI via le mode compatible DashScope

GPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro sur SWE-Bench Pro

Utiliser Groq GPT-OSS 120B avec le SDK OpenAI : URL de base, tarifs et mise en cache