Volver a todos los articulos
Benchmarks

GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 en programación Aider Polyglot

17 de junio de 2026 · 23 min de lectura · Claude / GPT / Gemini

Ilustración editorial con fondo crema de tres tarjetas abstractas de modelos de programación compitiendo sobre una cuadrícula de pruebas políglota, con te

El marcador tiene un claro ganador

GPT-5 high está en 88,0% en Aider Polyglot. Son 198 casos resueltos de 225, y no es una pequeña oscilación en la tabla de clasificación. En el mismo benchmark, Gemini 2.5 Pro Preview 06-05 con 32k de pensamiento llega al 83,1%, mientras que Claude Opus 4 con 32k de pensamiento llega al 72,0%, según la tabla de clasificación Polyglot oficial de Aider (Aider).

Esa diferencia importa porque Aider Polyglot no es una prueba de juguete de “escribe una función de Fibonacci”. Aider lo describe como 225 ejercicios de programación de Exercism en C++, Go, Java, JavaScript, Python y Rust (Aider). El modelo tiene que editar código, producir un diff válido y hacer que las pruebas pasen. Esto se parece mucho más al día a día de la programación agéntica que un benchmark de opción múltiple de un solo intento.

El titular: GPT-5 gana en tasa bruta de aprobación y coste por corrección exitosa. Gemini está cerca en corrección y es mucho mejor en disciplina de formato de salida. Claude Opus 4 se ve caro y por detrás en este benchmark concreto, pese a que Anthropic lo lanzó como un modelo de programación de primer nivel en mayo de 2025 (Anthropic).

Gráfico de barras horizontal que compara la tasa de aprobación en Aider Polyglot para GPT-5 high con 88,0%, Gemini 2.5 Pro Preview 06-05 32k thinki

Resultados brutos: tasa de aprobación, coste y fiabilidad de formato

Aquí está la vista compacta. Estos son resultados de ejecuciones de Aider, no cifras de marketing de los proveedores.

Modelo Fecha de ejecución en Aider Tasa de aprobación Resueltos / 225 Coste por ejecución Coste por caso resuelto Formato de edición correcto Formato de edición
GPT-5 high 2025-08-23 88.0% 198 $29.08 $0.147 91.6% diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83.1% 187 $49.88 $0.267 99.6% diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72.0% 162 $65.75 $0.406 97.3% diff

Las diferencias en tasa de aprobación son sencillas:

  • GPT-5 supera a Gemini por 4,9 puntos porcentuales, o 11 tareas resueltas más.
  • GPT-5 supera a Claude Opus 4 por 16,0 puntos, o 36 tareas resueltas más.
  • Gemini supera a Claude Opus 4 por 11,1 puntos, o 25 tareas resueltas más.

Las diferencias de coste son más pronunciadas. El coste de ejecución de GPT-5 es alrededor de un 42% menor que el de Gemini y un 56% menor que el de Claude. Claude cuesta unas 2,26 veces más que GPT-5 por ejecución mientras resuelve 36 casos menos.

Esa es la parte incómoda para Claude aquí. Opus 4 no solo va por detrás; va por detrás y cuesta más.

Por qué la diferencia de coste es tan grande

El precio de lista por token explica la mayor parte.

OpenAI fijó el precio de GPT-5 en $1,25 por millón de tokens de entrada y $10 por millón de tokens de salida cuando lanzó la familia de modelos para la API (OpenAI). El precio estándar actual de Gemini 2.5 Pro de Google también es de $1,25 de entrada y $10 de salida por millón de tokens para prompts de hasta 200k tokens, con tarifas más altas por encima de 200k (Google AI). Claude Opus 4 de Anthropic tenía un precio de $15 de entrada y $75 de salida por millón de tokens, y la página de precios actual de Anthropic ahora marca Claude Opus 4 como retirado excepto en Vertex AI, aunque sigue mostrando esas tarifas históricas (Anthropic Docs).

El uso de tokens de Aider encaja con esa historia. La ejecución de Gemini usó unos 2,72M de tokens de prompt y 4,65M de tokens de finalización, lo que se corresponde casi exactamente con el coste de ejecución reportado de $49,88 con precios de $1,25/$10. La ejecución de Claude usó menos tokens de finalización, unos 363k, pero el precio de salida de $75/M de Opus 4 aun así elevó la ejecución a $65,75.

GPT-5 es el caso interesante. Usó unos 2,68M de tokens de prompt y 2,62M de tokens de finalización. Resolvió más casos que Gemini emitiendo unos 2,0M de tokens de finalización menos. OpenAI también dijo que GPT-5 obtuvo 88% en Aider Polyglot y lo describió como un nuevo récord en su publicación de lanzamiento para desarrolladores (OpenAI).

Para los desarrolladores, esta es la parte que importa: el coste de un benchmark no es solo el precio de lista. Es el precio de lista multiplicado por la tendencia del modelo a pensar, reintentar, explicar y emitir diffs grandes.

Diagrama de dispersión con eje x de coste por ejecución de Aider y eje y de tasa de aprobación; GPT-5 high en la parte superior izquierda con $29.08 y 88.0%, Gemini 2

Formato de edición: Gemini es el operador más ordenado

GPT-5 gana el benchmark, pero Gemini gana la columna de disciplina de formato.

Aider reporta Gemini 2.5 Pro Preview 06-05 con 99,6% de formato de edición correcto, con solo una respuesta malformada. Claude Opus 4 también es fuerte, con 97,3%. GPT-5 high está más abajo, con 91,6%, y 22 respuestas malformadas durante la ejecución (Aider).

Eso suena como un pequeño detalle de implementación hasta que ejecutas agentes en un repositorio real. Un formato de edición incorrecto significa turnos desperdiciados, fallos al aplicar parches o que una persona tenga que rescatar la herramienta. Si tu flujo de trabajo es “el modelo propone un diff, CI lo comprueba, el agente itera”, la fiabilidad del formato forma parte de la inteligencia.

Aun así, la puntuación de formato más baja de GPT-5 no le impidió ganar. Eso nos dice dos cosas. Primero, puede recuperarse o producir suficientes ediciones correctas pese a más intentos malformados. Segundo, la tasa de aprobación es, en última instancia, una métrica más dura que la pulcritud. Un parche incorrecto perfectamente formateado sigue siendo incorrecto.

Una lectura razonable: usa GPT-5 cuando la parte más difícil sea resolver el bug. Usa Gemini cuando tu pipeline sea muy sensible al formato estricto de diff y puedas tolerar una pequeña caída en casos resueltos.

Versiones de modelos y trampas de fechas

Hay una trampa en esta comparación: son entradas históricas de benchmark, no una afirmación sobre todos los endpoints de producción actuales a 17 de junio de 2026.

Gemini 2.5 Pro Preview 06-05 se lanzó el 5 de junio de 2025, con pensamiento adaptativo; Google lanzó después la versión estable gemini-2.5-pro el 17 de junio de 2025, y su registro de cambios dice que los antiguos IDs de preview se cerraron o redirigieron posteriormente según el ciclo de vida del modelo (registro de cambios de Google AI). Claude Opus 4 se lanzó el 22 de mayo de 2025, y la documentación de precios de Anthropic ahora marca Claude Opus 4 como retirado excepto en Vertex AI (Anthropic Docs). GPT-5 se lanzó más tarde, el 7 de agosto de 2025, y la publicación de API de OpenAI enumera gpt-5, gpt-5-mini y gpt-5-nano como los tamaños de API disponibles en el lanzamiento (OpenAI).

Así que la comparación justa es: “¿Cómo rindieron estos modelos concretos en las ejecuciones registradas por Aider?” No es: “¿Qué familia de modelos más reciente de qué proveedor es la mejor hoy?”

Esa distinción importa para compras y para decisiones de ingeniería. Si tu equipo está eligiendo hoy un modelo de programación, vuelve a ejecutar una pequeña evaluación interna con tu propia pila. Incluye el tamaño de tu repositorio, la latencia de tus pruebas, tu formato de edición preferido y tu política real de reintentos.

Un harness mínimo puede ser aburrido y útil:

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

Luego mide tickets resueltos, aplicaciones de parche fallidas, pasos de CI, tiempo de reloj y dólares por corrección mergeada.

Qué elegiría

Si tuviera que elegir un modelo de esta instantánea de Aider para un agente de programación, empezaría con GPT-5 high. Tiene la mejor tasa de aprobación, el menor coste de ejecución entre los tres y el mejor coste por caso resuelto. El 91,6% de formato de edición correcto es una mancha, pero no suficiente para borrar una tasa de resolución del 88,0%.

Gemini 2.5 Pro es la segunda opción fuerte. Su tasa de aprobación del 83,1% está lo bastante cerca como para que los equipos con automatización estricta de formato de parches lo tomen en serio. La tasa de 99,6% de formato de edición correcto es excelente. La desventaja es el coste en esta ejecución: $49,88 es mucho pagar por 11 casos resueltos menos que GPT-5.

Claude Opus 4 es la opción difícil de vender aquí. Anthropic posicionó Opus 4 como un modelo serio para programación y agentes, y obtuvo buenos resultados en otros benchmarks de programación en su lanzamiento, incluidas afirmaciones sobre SWE-bench y Terminal-bench en la publicación de lanzamiento de Anthropic (Anthropic). Pero en Aider Polyglot, esta ejecución concreta de Opus 4 es a la vez más débil y más cara. A menos que tu carga de trabajo interna muestre fortalezas específicas de Claude, como criterio sobre bases de código, colaboración con contexto largo o menos ediciones destructivas, los datos de Aider no justifican elegir Opus 4 por encima de GPT-5 o Gemini para este trabajo.

La regla práctica: no compres “el mejor modelo de programación” como una afirmación de marca. Compra pruebas superadas por dólar, con la fiabilidad de edición como guardarraíl.

Los lectores que quieran probar estos modelos de primera mano pueden llamarlos a través de onehop con una API compatible con OpenAI cambiando un solo base_url. Es más barato que usar los proveedores directamente, incluye $10 de crédito gratis para cuentas nuevas y no requiere tarjeta: llama a Claude y otros modelos en onehop, o regístrate para obtener $10 de crédito gratis.