GPT-5 против Gemini 2.5 Pro и Claude Opus 4 в Aider Polyglot Coding
17 июня 2026 г. · 22 мин чтения · Claude / GPT / Gemini

У таблицы результатов есть явный победитель
GPT-5 high набирает 88,0% на Aider Polyglot. Это 198 решённых кейсов из 225, и это не мелкое колебание в лидерборде. На том же бенчмарке Gemini 2.5 Pro Preview 06-05 с 32k thinking достигает 83,1%, а Claude Opus 4 с 32k thinking — 72,0%, согласно официальному лидерборду Aider Polyglot (Aider).
Этот разрыв важен, потому что Aider Polyglot — не игрушечный тест в духе «напиши функцию Фибоначчи». Aider описывает его как 225 задач по программированию из Exercism на C++, Go, Java, JavaScript, Python и Rust (Aider). Модель должна редактировать код, выдавать валидный diff и добиваться прохождения тестов. Это гораздо ближе к повседневной рутине агентного кодинга, чем одноразовый бенчмарк с вариантами ответов.
Главный вывод: GPT-5 выигрывает по чистой доле прохождения и стоимости одного успешного исправления. Gemini близок по корректности и заметно лучше держит дисциплину формата вывода. Claude Opus 4 на этом конкретном бенчмарке выглядит дорогим и отстающим, несмотря на то что Anthropic запускала его в мае 2025 года как топовую модель для кодинга (Anthropic).

Сырые результаты: pass rate, стоимость, надёжность формата
Вот компактный обзор. Это результаты прогонов Aider, а не маркетинговые цифры вендоров.
| Модель | Дата прогона Aider | Pass rate | Решено / 225 | Стоимость прогона | Стоимость решённого кейса | Корректный формат правки | Формат правки |
|---|---|---|---|---|---|---|---|
| GPT-5 high | 2025-08-23 | 88.0% | 198 | $29.08 | $0.147 | 91.6% | diff |
| Gemini 2.5 Pro Preview 06-05, 32k thinking | 2025-06-06 | 83.1% | 187 | $49.88 | $0.267 | 99.6% | diff-fenced |
| Claude Opus 4 20250514, 32k thinking | 2025-05-25 | 72.0% | 162 | $65.75 | $0.406 | 97.3% | diff |
Разницы в pass rate простые:
- GPT-5 обходит Gemini на 4,9 процентного пункта, или на 11 дополнительных решённых задач.
- GPT-5 обходит Claude Opus 4 на 16,0 пункта, или на 36 дополнительных решённых задач.
- Gemini обходит Claude Opus 4 на 11,1 пункта, или на 25 дополнительных решённых задач.
Разница в стоимости ещё резче. Стоимость прогона GPT-5 примерно на 42% ниже, чем у Gemini, и на 56% ниже, чем у Claude. Claude стоит примерно в 2,26 раза дороже GPT-5 за прогон, при этом решает на 36 кейсов меньше.
Именно это здесь неудобнее всего для Claude. Opus 4 не просто отстаёт; он отстаёт, одновременно стоя дороже.
Почему разрыв в стоимости такой большой
Большую часть объясняет прайс за токены.
OpenAI оценила GPT-5 в $1.25 за миллион входных токенов и $10 за миллион выходных токенов при запуске API-семейства моделей (OpenAI). Текущий стандартный прайс Google Gemini 2.5 Pro тоже составляет $1.25 за вход и $10 за выход за миллион токенов для промптов до 200k токенов, с более высокими ставками выше 200k (Google AI). Claude Opus 4 от Anthropic стоил $15 за вход и $75 за выход за миллион токенов, а текущая страница цен Anthropic теперь помечает Claude Opus 4 как выведенный из эксплуатации, кроме Vertex AI, при этом всё ещё указывая эти исторические ставки (Anthropic Docs).
Использование токенов в Aider хорошо укладывается в эту картину. Прогон Gemini использовал около 2,72 млн prompt-токенов и 4,65 млн completion-токенов, что почти точно соответствует заявленной стоимости прогона $49.88 при прайсе $1.25/$10. Прогон Claude использовал меньше completion-токенов, около 363k, но цена выхода Opus 4 в $75/M всё равно подняла стоимость прогона до $65.75.
GPT-5 — самый интересный случай. Он использовал около 2,68 млн prompt-токенов и 2,62 млн completion-токенов. Он решил больше кейсов, чем Gemini, при этом выдав примерно на 2,0 млн completion-токенов меньше. OpenAI также заявила, что GPT-5 набрал 88% на Aider Polyglot, и назвала это новым рекордом в своём посте для разработчиков о запуске (OpenAI).
Для разработчиков важна вот эта часть: стоимость бенчмарка — это не только прайс-лист. Это прайс-лист, умноженный на склонность модели думать, ретраить, объяснять и выдавать большие diff’ы.

Формат правок: Gemini — самый аккуратный оператор
GPT-5 выигрывает бенчмарк, но Gemini выигрывает колонку дисциплины формата.
Aider указывает для Gemini 2.5 Pro Preview 06-05 99,6% корректного формата правок, всего с одним некорректно сформированным ответом. Claude Opus 4 тоже силён — 97,3%. У GPT-5 high показатель ниже — 91,6%, с 22 некорректно сформированными ответами за прогон (Aider).
Это звучит как небольшая деталь реализации — пока вы не запускаете агентов в настоящем репозитории. Плохой формат правки означает потраченные впустую ходы, неудачное применение патча или необходимость человеку спасать инструмент. Если ваш workflow — «модель предлагает diff, CI проверяет, агент итерируется», надёжность формата является частью интеллекта.
Тем не менее более низкий показатель формата у GPT-5 не помешал ему победить. Это говорит нам о двух вещах. Во-первых, он способен восстанавливаться или выдавать достаточно корректных правок, несмотря на большее число некорректных попыток. Во-вторых, pass rate в итоге более жёсткая метрика, чем аккуратность. Идеально отформатированный неправильный патч всё равно неправильный.
Разумная интерпретация: используйте GPT-5, когда самая сложная часть — решить баг. Используйте Gemini, когда ваш пайплайн очень чувствителен к строгому форматированию diff и вы готовы принять небольшое снижение числа решённых кейсов.
Версии моделей и ловушки дат
В этом сравнении есть одна ловушка: это исторические записи бенчмарка, а не утверждение о каждом текущем production-endpoint на 17 июня 2026 года.
Gemini 2.5 Pro Preview 06-05 был выпущен 5 июня 2025 года с adaptive thinking; позже Google выпустила стабильный gemini-2.5-pro 17 июня 2025 года, а в changelog сказано, что старые preview ID позднее были отключены или перенаправлены в рамках жизненного цикла модели (Google AI changelog). Claude Opus 4 вышел 22 мая 2025 года, а документация Anthropic по ценам теперь помечает Claude Opus 4 как выведенный из эксплуатации, кроме Vertex AI (Anthropic Docs). GPT-5 вышел позже, 7 августа 2025 года, и API-пост OpenAI перечисляет gpt-5, gpt-5-mini и gpt-5-nano как размеры API на момент запуска (OpenAI).
Так что честное сравнение звучит так: «Как эти именованные модели показали себя в записанных прогонах Aider?» А не так: «У какого вендора сегодня лучшая новейшая линейка моделей?»
Это различие важно для закупок и инженерных решений. Если ваша команда сегодня выбирает модель для кодинга, прогоните небольшой внутренний eval на своём стеке. Включите размер вашего репозитория, задержку тестов, предпочитаемый формат правок и вашу реальную политику ретраев.
Минимальный harness может быть скучным и полезным:
aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514
Затем измеряйте решённые тикеты, неудачные применения патчей, прохождения CI, wall time и доллары на один смёрженный фикс.
Что выбрал бы я
Если бы мне пришлось выбрать одну модель из этого снимка Aider для coding-агента, я бы начал с GPT-5 high. У него лучший pass rate, самая низкая стоимость прогона среди трёх и лучшая стоимость одного решённого кейса. 91,6% корректного формата правок — пятно на репутации, но недостаточное, чтобы перечеркнуть solve rate 88,0%.
Gemini 2.5 Pro — сильный второй вариант. Его pass rate 83,1% достаточно близок, чтобы команды со строгой автоматизацией формата патчей отнеслись к нему серьёзно. 99,6% корректного формата правок — отличный показатель. Минус — стоимость в этом прогоне: $49.88 — это много за 11 решённых кейсов меньше, чем у GPT-5.
Claude Opus 4 здесь трудно продать. Anthropic позиционировала Opus 4 как серьёзную модель для кодинга и агентов, и на старте он показал сильные результаты на других coding-бенчмарках, включая заявления по SWE-bench и Terminal-bench в релизном посте Anthropic (Anthropic). Но на Aider Polyglot этот конкретный прогон Opus 4 одновременно слабее и дороже. Если ваша внутренняя нагрузка не показывает специфических сильных сторон Claude — например вкуса к кодовой базе, long-context-сотрудничества или меньшего числа разрушительных правок, — данные Aider не оправдывают выбор Opus 4 вместо GPT-5 или Gemini для этой задачи.
Практическое правило: не покупайте «лучшую coding-модель» как брендовый тезис. Покупайте пройденные тесты на доллар, используя надёжность правок как ограничитель.
Читатели, которые хотят попробовать эти модели на практике, могут вызывать их через onehop с OpenAI-совместимым API, изменив один base_url. Это дешевле, чем напрямую у провайдеров, включает $10 бесплатного кредита для новых аккаунтов и не требует карты: вызывать Claude и другие модели через onehop или зарегистрироваться и получить $10 бесплатного кредита.
Похожие материалы

Gemini 3.1 Pro против GPT-5.2 и Claude Opus 4.6 на Terminal-Bench 2.0
Gemini 3.1 Pro лидирует в общем прогоне Terminal-Bench 2.0, но выбор harness меняет картину для CLI-кодинга.
16 июня 2026 г. · 23 мин чтения

Используйте Groq GPT-OSS 120B с OpenAI SDK: базовый URL, цены и кэширование
Замените base URL в OpenAI SDK, запускайте GPT-OSS 120B на Groq, оценивайте стоимость кэшированных токенов и избегайте сюрпризов с оплатой инструментов.
17 июня 2026 г. · 26 мин чтения

Использование Grok Build в Warp с подпиской SuperGrok или X Premium
xAI позволяет пользователям Warp подключать Grok или X Premium и запускать grok-build-0.1 в агентных терминальных workflow.
16 июня 2026 г. · 23 мин чтения