Назад ко всем статьям
Бенчмарки

GPT-5 против Gemini 2.5 Pro и Claude Opus 4 в Aider Polyglot Coding

17 июня 2026 г. · 22 мин чтения · Claude / GPT / Gemini

Редакционная иллюстрация на кремовом фоне: три абстрактные карточки coding-моделей соревнуются на полиглотной тестовой сетке, с те

У таблицы результатов есть явный победитель

GPT-5 high набирает 88,0% на Aider Polyglot. Это 198 решённых кейсов из 225, и это не мелкое колебание в лидерборде. На том же бенчмарке Gemini 2.5 Pro Preview 06-05 с 32k thinking достигает 83,1%, а Claude Opus 4 с 32k thinking — 72,0%, согласно официальному лидерборду Aider Polyglot (Aider).

Этот разрыв важен, потому что Aider Polyglot — не игрушечный тест в духе «напиши функцию Фибоначчи». Aider описывает его как 225 задач по программированию из Exercism на C++, Go, Java, JavaScript, Python и Rust (Aider). Модель должна редактировать код, выдавать валидный diff и добиваться прохождения тестов. Это гораздо ближе к повседневной рутине агентного кодинга, чем одноразовый бенчмарк с вариантами ответов.

Главный вывод: GPT-5 выигрывает по чистой доле прохождения и стоимости одного успешного исправления. Gemini близок по корректности и заметно лучше держит дисциплину формата вывода. Claude Opus 4 на этом конкретном бенчмарке выглядит дорогим и отстающим, несмотря на то что Anthropic запускала его в мае 2025 года как топовую модель для кодинга (Anthropic).

Горизонтальная столбчатая диаграмма, сравнивающая pass rate Aider Polyglot: GPT-5 high — 88,0%, Gemini 2.5 Pro Preview 06-05 32k thinki

Сырые результаты: pass rate, стоимость, надёжность формата

Вот компактный обзор. Это результаты прогонов Aider, а не маркетинговые цифры вендоров.

Модель Дата прогона Aider Pass rate Решено / 225 Стоимость прогона Стоимость решённого кейса Корректный формат правки Формат правки
GPT-5 high 2025-08-23 88.0% 198 $29.08 $0.147 91.6% diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83.1% 187 $49.88 $0.267 99.6% diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72.0% 162 $65.75 $0.406 97.3% diff

Разницы в pass rate простые:

  • GPT-5 обходит Gemini на 4,9 процентного пункта, или на 11 дополнительных решённых задач.
  • GPT-5 обходит Claude Opus 4 на 16,0 пункта, или на 36 дополнительных решённых задач.
  • Gemini обходит Claude Opus 4 на 11,1 пункта, или на 25 дополнительных решённых задач.

Разница в стоимости ещё резче. Стоимость прогона GPT-5 примерно на 42% ниже, чем у Gemini, и на 56% ниже, чем у Claude. Claude стоит примерно в 2,26 раза дороже GPT-5 за прогон, при этом решает на 36 кейсов меньше.

Именно это здесь неудобнее всего для Claude. Opus 4 не просто отстаёт; он отстаёт, одновременно стоя дороже.

Почему разрыв в стоимости такой большой

Большую часть объясняет прайс за токены.

OpenAI оценила GPT-5 в $1.25 за миллион входных токенов и $10 за миллион выходных токенов при запуске API-семейства моделей (OpenAI). Текущий стандартный прайс Google Gemini 2.5 Pro тоже составляет $1.25 за вход и $10 за выход за миллион токенов для промптов до 200k токенов, с более высокими ставками выше 200k (Google AI). Claude Opus 4 от Anthropic стоил $15 за вход и $75 за выход за миллион токенов, а текущая страница цен Anthropic теперь помечает Claude Opus 4 как выведенный из эксплуатации, кроме Vertex AI, при этом всё ещё указывая эти исторические ставки (Anthropic Docs).

Использование токенов в Aider хорошо укладывается в эту картину. Прогон Gemini использовал около 2,72 млн prompt-токенов и 4,65 млн completion-токенов, что почти точно соответствует заявленной стоимости прогона $49.88 при прайсе $1.25/$10. Прогон Claude использовал меньше completion-токенов, около 363k, но цена выхода Opus 4 в $75/M всё равно подняла стоимость прогона до $65.75.

GPT-5 — самый интересный случай. Он использовал около 2,68 млн prompt-токенов и 2,62 млн completion-токенов. Он решил больше кейсов, чем Gemini, при этом выдав примерно на 2,0 млн completion-токенов меньше. OpenAI также заявила, что GPT-5 набрал 88% на Aider Polyglot, и назвала это новым рекордом в своём посте для разработчиков о запуске (OpenAI).

Для разработчиков важна вот эта часть: стоимость бенчмарка — это не только прайс-лист. Это прайс-лист, умноженный на склонность модели думать, ретраить, объяснять и выдавать большие diff’ы.

Точечная диаграмма с осью X — стоимость прогона Aider, осью Y — pass rate; GPT-5 high в верхнем левом углу при $29.08 и 88,0%, Gemini 2

Формат правок: Gemini — самый аккуратный оператор

GPT-5 выигрывает бенчмарк, но Gemini выигрывает колонку дисциплины формата.

Aider указывает для Gemini 2.5 Pro Preview 06-05 99,6% корректного формата правок, всего с одним некорректно сформированным ответом. Claude Opus 4 тоже силён — 97,3%. У GPT-5 high показатель ниже — 91,6%, с 22 некорректно сформированными ответами за прогон (Aider).

Это звучит как небольшая деталь реализации — пока вы не запускаете агентов в настоящем репозитории. Плохой формат правки означает потраченные впустую ходы, неудачное применение патча или необходимость человеку спасать инструмент. Если ваш workflow — «модель предлагает diff, CI проверяет, агент итерируется», надёжность формата является частью интеллекта.

Тем не менее более низкий показатель формата у GPT-5 не помешал ему победить. Это говорит нам о двух вещах. Во-первых, он способен восстанавливаться или выдавать достаточно корректных правок, несмотря на большее число некорректных попыток. Во-вторых, pass rate в итоге более жёсткая метрика, чем аккуратность. Идеально отформатированный неправильный патч всё равно неправильный.

Разумная интерпретация: используйте GPT-5, когда самая сложная часть — решить баг. Используйте Gemini, когда ваш пайплайн очень чувствителен к строгому форматированию diff и вы готовы принять небольшое снижение числа решённых кейсов.

Версии моделей и ловушки дат

В этом сравнении есть одна ловушка: это исторические записи бенчмарка, а не утверждение о каждом текущем production-endpoint на 17 июня 2026 года.

Gemini 2.5 Pro Preview 06-05 был выпущен 5 июня 2025 года с adaptive thinking; позже Google выпустила стабильный gemini-2.5-pro 17 июня 2025 года, а в changelog сказано, что старые preview ID позднее были отключены или перенаправлены в рамках жизненного цикла модели (Google AI changelog). Claude Opus 4 вышел 22 мая 2025 года, а документация Anthropic по ценам теперь помечает Claude Opus 4 как выведенный из эксплуатации, кроме Vertex AI (Anthropic Docs). GPT-5 вышел позже, 7 августа 2025 года, и API-пост OpenAI перечисляет gpt-5, gpt-5-mini и gpt-5-nano как размеры API на момент запуска (OpenAI).

Так что честное сравнение звучит так: «Как эти именованные модели показали себя в записанных прогонах Aider?» А не так: «У какого вендора сегодня лучшая новейшая линейка моделей?»

Это различие важно для закупок и инженерных решений. Если ваша команда сегодня выбирает модель для кодинга, прогоните небольшой внутренний eval на своём стеке. Включите размер вашего репозитория, задержку тестов, предпочитаемый формат правок и вашу реальную политику ретраев.

Минимальный harness может быть скучным и полезным:

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

Затем измеряйте решённые тикеты, неудачные применения патчей, прохождения CI, wall time и доллары на один смёрженный фикс.

Что выбрал бы я

Если бы мне пришлось выбрать одну модель из этого снимка Aider для coding-агента, я бы начал с GPT-5 high. У него лучший pass rate, самая низкая стоимость прогона среди трёх и лучшая стоимость одного решённого кейса. 91,6% корректного формата правок — пятно на репутации, но недостаточное, чтобы перечеркнуть solve rate 88,0%.

Gemini 2.5 Pro — сильный второй вариант. Его pass rate 83,1% достаточно близок, чтобы команды со строгой автоматизацией формата патчей отнеслись к нему серьёзно. 99,6% корректного формата правок — отличный показатель. Минус — стоимость в этом прогоне: $49.88 — это много за 11 решённых кейсов меньше, чем у GPT-5.

Claude Opus 4 здесь трудно продать. Anthropic позиционировала Opus 4 как серьёзную модель для кодинга и агентов, и на старте он показал сильные результаты на других coding-бенчмарках, включая заявления по SWE-bench и Terminal-bench в релизном посте Anthropic (Anthropic). Но на Aider Polyglot этот конкретный прогон Opus 4 одновременно слабее и дороже. Если ваша внутренняя нагрузка не показывает специфических сильных сторон Claude — например вкуса к кодовой базе, long-context-сотрудничества или меньшего числа разрушительных правок, — данные Aider не оправдывают выбор Opus 4 вместо GPT-5 или Gemini для этой задачи.

Практическое правило: не покупайте «лучшую coding-модель» как брендовый тезис. Покупайте пройденные тесты на доллар, используя надёжность правок как ограничитель.

Читатели, которые хотят попробовать эти модели на практике, могут вызывать их через onehop с OpenAI-совместимым API, изменив один base_url. Это дешевле, чем напрямую у провайдеров, включает $10 бесплатного кредита для новых аккаунтов и не требует карты: вызывать Claude и другие модели через onehop или зарегистрироваться и получить $10 бесплатного кредита.