Volver a todos los articulos
Benchmarks

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 en Terminal-Bench 2.0

16 de junio de 2026 · 23 min de lectura · Claude / GPT / Gemini

Portada editorial con fondo crema que muestra tres ventanas de terminal abstractas como tarjetas color carbón apiladas, cada una conectada a una

El número que importa: 68,5 %

La model card de Gemini 3.1 Pro de Google DeepMind sitúa a Gemini 3.1 Pro en 68,5 % en Terminal-Bench 2.0 usando el arnés Terminus-2. En la misma tabla, Claude Opus 4.6 obtiene 65,4 %, GPT-5.3-Codex obtiene 64,7 % y GPT-5.2 obtiene 54,0 % bajo esa misma línea de arnés (Google DeepMind).

Esa es la fila de comparación directa más limpia en el material público actual. Dice lo siguiente: si ejecutas estos modelos con la misma configuración Terminus-2 reportada, Gemini 3.1 Pro va por delante, Claude Opus 4.6 está cerca, GPT-5.3-Codex está básicamente en la misma franja y GPT-5.2 queda bastante atrás.

Pero aquí hay una trampa. Terminal-Bench no es solo un benchmark de modelos. Es un benchmark de modelo más agente más arnés.

La página de Terminal-Bench 2.0 de Epoch AI describe el benchmark como tareas en las que los agentes deben operar dentro de una terminal real: entender el sistema de archivos, usar programas instalados, razonar sobre procesos en ejecución y completar tareas sin que se les indique cada comando. También dice que las puntuaciones se reportan para combinaciones de modelo-agente porque el agente puede cambiar materialmente el rendimiento (Epoch AI). Esa única frase debería cambiar cómo lees cualquier leaderboard.

Gráfico de barras horizontal sobre fondo crema que compara puntuaciones de Terminal-Bench 2.0 con Terminus-2: Gemini 3.1 Pro 68,5, Claude Opu

La tabla de benchmark que los desarrolladores deberían usar de verdad

Este es el recorte útil, limitado a cifras que pude verificar en fuentes primarias.

Modelo Puntuación en Terminal-Bench 2.0 Contexto de arnés / fuente Precio de API, si aplica
Gemini 3.1 Pro 68,5 % Arnés Terminus-2 en la model card de Google 2/12 USD por 1 M de tokens de entrada/salida para prompts ≤200k; 4/18 USD por encima de 200k (Google AI)
Claude Opus 4.6 65,4 % Arnés Terminus-2 en la model card de Google; leaderboard público según la nota metodológica de Google 5/25 USD por 1 M de tokens de entrada/salida (Anthropic)
GPT-5.3-Codex 64,7 % Arnés Terminus-2 en la model card de Google La ejecución del proveedor de OpenAI reporta 77,3 % usando Codex CLI, no el mismo arnés (OpenAI)
GPT-5.2 54,0 % Arnés Terminus-2 en la model card de Google 1,75/14 USD por 1 M de tokens de entrada/salida (OpenAI)

El orden bajo Terminus-2 es claro: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

El punto de ingeniería más importante es menos ordenado. El PDF de metodología de Google dice que las puntuaciones de Gemini son calculadas por ellos mismos, mientras que las cifras de modelos no Gemini suelen ser reportadas por el proveedor salvo que se indique lo contrario. Para Terminal-Bench 2.0 específicamente, dice que Gemini 3.1 Pro es calculado por Google, que los demás modelos vienen del leaderboard público y que los resultados se reportan tanto para el arnés predeterminado Terminus-2 como para otros mejores arneses autorreportados cuando corresponde (PDF de metodología de Google DeepMind).

Así que la lectura justa no es “Gemini aplasta a todos”. Es: Gemini lidera la comparación compartida con Terminus-2 por 3,1 puntos porcentuales sobre Claude y 3,8 puntos sobre GPT-5.3-Codex. GPT-5.2 es el claro rezagado en esta configuración.

Por qué GPT-5.3-Codex tiene dos historias distintas

La fila más confusa es GPT-5.3-Codex.

La model card de Google le da 64,7 % con el arnés Terminus-2. Una línea más abajo, la misma card lista cifras de “otro mejor arnés autorreportado”: GPT-5.2 con 62,2 % usando Codex, y GPT-5.3-Codex con 77,3 % usando Codex (Google DeepMind). El propio anuncio de GPT-5.3-Codex de OpenAI también reporta 77,3 % en Terminal-Bench 2.0, con esfuerzo de razonamiento xhigh, y enmarca explícitamente el modelo como un modelo de agente de coding para Codex (OpenAI).

Ambas cosas pueden ser ciertas.

Un agente de coding en CLI no es una completion de chat sin estado. El arnés decide cómo se exponen los archivos, cómo se ejecutan los comandos, cómo se aplican los parches, cómo se resume el estado, con qué frecuencia el modelo puede recuperarse de una mala ruta y, a veces, cómo se selecciona el esfuerzo de razonamiento. Si usas Codex CLI, la cifra del 77,3 % de OpenAI es relevante. Si estás comparando modelos dentro del mismo arnés de agente de terceros, la cifra de 64,7 % con Terminus-2 es la comparación más limpia.

Esa distinción se traslada directamente al uso real:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

Si tu equipo está construyendo su propio agente CLI, no copies la mejor puntuación de arnés de un proveedor en una hoja de cálculo y la llames calidad del modelo. Trátala como calidad del sistema: modelo, bucle de herramientas, memoria, política de reintentos, mecánica de parches, sandbox y contrato de prompt.

Diagrama de flujo que muestra una “tarea de desarrollador” entrando en un arnés de agente, dividiéndose en modelo, herramientas de terminal, estado del sistema de archivos,

Qué mide Terminal-Bench 2.0 mejor que SWE-Bench

SWE-Bench sigue siendo útil, pero Terminal-Bench captura un modo de fallo distinto. Un modelo puede generar un parche plausible y aun así ser malo viviendo dentro de una shell.

Las tareas de Terminal-Bench incluyen cosas como compilar un kernel de Linux en QEMU, configurar un servidor web Git, descifrar un hash 7z para un secreto proporcionado, generar certificados OpenSSL y remodelar archivos de datos. El sitio de Terminal-Bench describe la versión 2.0 como 89 tareas de alta calidad en ingeniería de software, machine learning, seguridad, ciencia de datos y más (Terminal-Bench).

Eso importa porque los agentes CLI fallan de maneras aburridas y caras:

  • Olvidan dónde están en el sistema de archivos.
  • Ejecutan un comando, ignoran stderr y parchean el archivo equivocado.
  • Pasan las pruebas visibles pero no capturan la invariante oculta.
  • Queman tokens explorando en vez de formular un plan.
  • Se quedan atascados tras una instalación fallida o una prueba flaky.

En esas tareas, la puntuación de 68,5 % de Gemini 3.1 Pro con Terminus-2 es impresionante porque sugiere un comportamiento sólido en el bucle de comandos, no solo síntesis de código. Claude Opus 4.6 con 65,4 % está lo bastante cerca como para que no migraría un flujo maduro de Claude Code solo por la diferencia en el benchmark. GPT-5.2 con 54,0 % es el que evitaría para automatización difícil de terminal, salvo que el coste sea la restricción dominante o tengas un arnés muy fuerte a su alrededor.

Elegir un modelo para un agente de coding en CLI

Mi ranking práctico depende de qué estás comprando.

Si quieres la puntuación de terminal más fuerte en arnés compartido, empieza con Gemini 3.1 Pro. Lidera la fila de comparación verificada y es más barato que Claude Opus 4.6 en el precio estándar por token por debajo de 200k tokens de prompt. La pega: para prompts de repos grandes por encima de 200k, el precio publicado por Google sube de 2/12 USD a 4/18 USD por 1 M de tokens de entrada/salida, así que las ejecuciones de agentes con contexto largo necesitan presupuestos y disciplina de caché (Google AI).

Si ya usas un flujo muy centrado en Claude, Claude Opus 4.6 sigue siendo una opción sólida. Anthropic lanzó Opus 4.6 el 5 de febrero de 2026, con mejor coding, mayor rendimiento en tareas agénticas largas y una ventana de contexto de 1 M de tokens en beta para la plataforma de desarrolladores (Anthropic). Su puntuación de 65,4 % con Terminus-2 está cerca de Gemini. El precio es más alto: 5 USD de entrada y 25 USD de salida por millón de tokens en la tarifa estándar.

Si quieres la mejor cifra de terminal específica de Codex, GPT-5.3-Codex merece una evaluación aparte. Su puntuación de 77,3 % en Terminal-Bench 2.0 reportada por el proveedor está ligada a la configuración Codex de OpenAI, mientras que la fila compartida con Terminus-2 es 64,7 %. No es una contradicción. Es una etiqueta de advertencia.

Si estás mirando GPT-5.2, el argumento es coste y capacidad general, no agencia de terminal punta. OpenAI tarifa GPT-5.2 a 1,75/14 USD por millón de tokens de entrada/salida y dice que admite esfuerzo de razonamiento xhigh en la API (OpenAI). Pero en la fila compartida de Terminal-Bench 2.0, 54,0 % es una brecha grande.

Conclusión

Para agentes de coding basados en terminal, haría una shortlist así: Gemini 3.1 Pro para el mejor rendimiento en Terminal-Bench 2.0 con arnés compartido, Claude Opus 4.6 para equipos que valoran la fiabilidad de coding con contexto largo y ya confían en flujos de Claude, GPT-5.3-Codex cuando el runtime objetivo es el propio Codex, y GPT-5.2 solo cuando el precio o la disponibilidad de API importan más que la tasa de éxito en terminal.

La lección principal es metodológica. Una puntuación de Terminal-Bench nunca es solo “el modelo”. Para desarrolladores que construyen agentes CLI, el arnés es parte del producto. Sigue ambas cifras: la puntuación con arnés compartido que te dice la portabilidad bruta, y la puntuación con arnés del proveedor que te dice qué puede hacer el stack nativo completo.

Los lectores que quieran probar estos modelos de primera mano pueden llamar a Claude y otros modelos en onehop con una API compatible con OpenAI: cambia un base_url, mantén casi igual el resto del cliente y compara costes frente a las rutas first-party. Las cuentas nuevas reciben 10 USD de crédito gratis sin tarjeta: llamar a Claude y otros modelos en onehop, o registrarte para obtener 10 USD de crédito gratis.