Gemini 3.1 Pro против GPT-5.2 и Claude Opus 4.6 на Terminal-Bench 2.0

Главное число: 68,5%

В model card Google DeepMind для Gemini 3.1 Pro указано, что Gemini 3.1 Pro набирает 68,5% на Terminal-Bench 2.0 при использовании harness Terminus-2. В той же таблице Claude Opus 4.6 получает 65,4%, GPT-5.3-Codex — 64,7%, а GPT-5.2 — 54,0% в той же строке harness (Google DeepMind).

Это самая чистая строка для сравнения «яблок с яблоками» в текущих публичных материалах. Она говорит следующее: если прогонять эти модели через один и тот же заявленный сетап Terminus-2, Gemini 3.1 Pro впереди, Claude Opus 4.6 близко, GPT-5.3-Codex находится примерно в той же группе, а GPT-5.2 заметно отстает.

Но здесь есть ловушка. Terminal-Bench — это не просто бенчмарк модели. Это бенчмарк модели плюс агента плюс harness.

Страница Epoch AI о Terminal-Bench 2.0 описывает бенчмарк как набор задач, где агенты должны работать внутри настоящего терминала: понимать файловую систему, использовать установленные программы, рассуждать о запущенных процессах и выполнять задачи без пошагового указания каждой команды. Там также сказано, что результаты публикуются для комбинаций «модель-агент», потому что агент может существенно менять производительность (Epoch AI). Одно это предложение должно изменить то, как вы читаете любой leaderboard.

Горизонтальная столбчатая диаграмма на кремовом фоне, сравнивающая результаты Terminal-Bench 2.0 Terminus-2: Gemini 3.1 Pro 68.5, Claude Opu

Таблица бенчмарка, которой разработчикам действительно стоит пользоваться

Вот полезный срез, ограниченный числами, которые удалось проверить по первоисточникам.

Модель	Результат Terminal-Bench 2.0	Контекст harness / источника	Цена API, если релевантно
Gemini 3.1 Pro	68,5%	Harness Terminus-2 в model card Google	$2/$12 за 1 млн входных/выходных токенов для промптов ≤200k; $4/$18 выше 200k (Google AI)
Claude Opus 4.6	65,4%	Harness Terminus-2 в model card Google; публичный leaderboard согласно примечанию Google о методологии	$5/$25 за 1 млн входных/выходных токенов (Anthropic)
GPT-5.3-Codex	64,7%	Harness Terminus-2 в model card Google	Прогон провайдера OpenAI показывает 77,3% при использовании Codex CLI, это не тот же harness (OpenAI)
GPT-5.2	54,0%	Harness Terminus-2 в model card Google	$1.75/$14 за 1 млн входных/выходных токенов (OpenAI)

Порядок в Terminus-2 однозначен: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

Более важный инженерный вывод менее аккуратен. В собственном PDF Google с методологией сказано, что результаты Gemini посчитаны самостоятельно, а числа для не-Gemini моделей обычно предоставлены провайдерами, если не указано иное. Конкретно для Terminal-Bench 2.0 там сказано, что результат Gemini 3.1 Pro посчитан самостоятельно, другие модели взяты из публичного leaderboard, а результаты приведены как для стандартного harness Terminus-2, так и для других лучших самостоятельно заявленных harness, где это применимо (PDF с методологией Google DeepMind).

Так что честное прочтение — не «Gemini разгромила всех». А вот такое: Gemini лидирует в общем сравнении на Terminus-2 на 3,1 процентного пункта относительно Claude и на 3,8 пункта относительно GPT-5.3-Codex. GPT-5.2 в этом сетапе явно отстает.

Почему у GPT-5.3-Codex две разные истории

Самая запутанная строка — GPT-5.3-Codex.

Model card Google дает ей 64,7% на harness Terminus-2. Строкой ниже в той же карточке перечислены показатели “other best self-reported harness”: GPT-5.2 — 62,2% using Codex, а GPT-5.3-Codex — 77,3% using Codex (Google DeepMind). Собственный анонс GPT-5.3-Codex от OpenAI также сообщает 77,3% на Terminal-Bench 2.0, с xhigh reasoning effort, и явно позиционирует модель как модель coding agent для Codex (OpenAI).

Оба утверждения могут быть верны.

CLI-агент для кодинга — это не stateless chat completion. Harness определяет, как предоставляются файлы, как выполняются команды, как применяются патчи, как суммаризируется состояние, как часто модель может восстановиться после неверного пути, а иногда и как выбирается reasoning effort. Если вы используете Codex CLI, число OpenAI 77,3% релевантно. Если вы сравниваете модели внутри одного и того же стороннего agent harness, число 64,7% на Terminus-2 — более чистое сравнение.

Это различие напрямую переносится на реальное использование:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

Если ваша команда строит собственного CLI-агента, не копируйте лучший provider harness score в таблицу и не называйте это качеством модели. Рассматривайте его как качество системы: модель, цикл работы с инструментами, память, retry policy, механика патчей, sandbox и prompt contract.

Блок-схема, где “developer task” входит в agent harness и разделяется на model, terminal tools, filesystem state,

Что Terminal-Bench 2.0 измеряет лучше, чем SWE-Bench

SWE-Bench по-прежнему полезен, но Terminal-Bench ловит другой тип отказов. Модель может сгенерировать правдоподобный патч и при этом плохо жить внутри shell.

Задачи Terminal-Bench включают, например, сборку Linux kernel в QEMU, настройку Git web server, взлом 7z hash для предоставленного секрета, генерацию OpenSSL certificates и преобразование файлов с данными. Сайт Terminal-Bench описывает версию 2.0 как 89 высококачественных задач в области software engineering, machine learning, security, data science и других направлений (Terminal-Bench).

Это важно, потому что CLI-агенты падают скучными и дорогими способами:

Они забывают, где находятся в файловой системе.
Они запускают команду, игнорируют stderr и патчат не тот файл.
Они проходят видимые тесты, но упускают скрытый инвариант.
Они сжигают токены на исследование вместо того, чтобы сформировать план.
Они застревают после одной неудачной установки или одного flaky test.

На таких задачах результат Gemini 3.1 Pro в 68,5% на Terminus-2 впечатляет, потому что указывает на сильное поведение в командном цикле, а не только на синтез кода. Claude Opus 4.6 с 65,4% достаточно близко, чтобы я не стал мигрировать зрелый workflow на Claude Code только из-за разницы в бенчмарке. GPT-5.2 с 54,0% — та модель, которую я бы избегал для сложной терминальной автоматизации, если только стоимость не является главным ограничением или вокруг нее не построен очень сильный harness.

Выбор модели для CLI-агента кодинга

Мой практический рейтинг зависит от того, что именно вы покупаете.

Если вам нужен самый сильный terminal score в общем harness, начните с Gemini 3.1 Pro. Она лидирует в проверенной сравнительной строке и дешевле Claude Opus 4.6 при стандартной пот токенной цене для промптов ниже 200k токенов. Нюанс: для промптов по большим репозиториям выше 200k опубликованная цена Google повышается с $2/$12 до $4/$18 за 1 млн входных/выходных токенов, так что long-context прогонам агента нужны бюджеты и дисциплина в кэшировании (Google AI).

Если у вас уже workflow, сильно завязанный на Claude, Claude Opus 4.6 остается сильным выбором. Anthropic выпустила Opus 4.6 5 февраля 2026 года, с более сильным кодингом, более длительной работой на агентных задачах и контекстным окном на 1 млн токенов в бете для developer platform (Anthropic). Ее результат 65,4% на Terminus-2 близок к Gemini. Цена выше: $5 за вход и $25 за выход на миллион токенов в стандартном прайсинге.

Если вам нужен лучший terminal number именно для Codex, GPT-5.3-Codex заслуживает отдельной оценки. Ее заявленный провайдером результат 77,3% на Terminal-Bench 2.0 привязан к сетапу OpenAI Codex, тогда как в общей строке Terminus-2 — 64,7%. Это не противоречие. Это предупреждающая маркировка.

Если вы смотрите на GPT-5.2, аргументы в ее пользу — стоимость и общие возможности, а не пиковая terminal agency. OpenAI оценивает GPT-5.2 в $1.75/$14 за миллион входных/выходных токенов и говорит, что в API поддерживается xhigh reasoning effort (OpenAI). Но в общей строке Terminal-Bench 2.0 результат 54,0% — это большой разрыв.

Итог

Для терминальных coding agents я бы сформировал шорт-лист так: Gemini 3.1 Pro — за лучшую производительность Terminal-Bench 2.0 в общем harness, Claude Opus 4.6 — для команд, которым важны надежность long-context кодинга и уже привычные Claude workflows, GPT-5.3-Codex — когда целевая среда выполнения — сам Codex, и GPT-5.2 — только когда цена или доступность API важнее, чем доля успешных терминальных задач.

Главный урок — методологический. Результат Terminal-Bench никогда не означает просто «модель». Для разработчиков, строящих CLI-агентов, harness — часть продукта. Отслеживайте оба числа: shared-harness score, который показывает сырую переносимость, и provider-harness score, который показывает, на что способен полный нативный стек.

Читатели, которые хотят попробовать эти модели на практике, могут вызывать Claude и другие модели в onehop через OpenAI-compatible API: поменяйте один base_url, оставьте остальную часть клиента почти без изменений и сравните затраты с прямыми маршрутами к провайдерам. Новые аккаунты получают $10 бесплатного кредита без необходимости привязывать карту: вызывать Claude и другие модели в onehop или зарегистрироваться и получить $10 бесплатного кредита.

Gemini 3.1 Pro против GPT-5.2 и Claude Opus 4.6 на Terminal-Bench 2.0

Главное число: 68,5%

Таблица бенчмарка, которой разработчикам действительно стоит пользоваться

Почему у GPT-5.3-Codex две разные истории

Что Terminal-Bench 2.0 измеряет лучше, чем SWE-Bench

Выбор модели для CLI-агента кодинга

Итог

Похожие материалы

GPT-5.6 Sol против Claude Fable 5 и Gemini 3.1 Pro на SWE-Bench Pro

GPT-5 против Gemini 2.5 Pro и Claude Opus 4 в Aider Polyglot Coding

Вызов Qwen3.7 Plus через OpenAI SDK в совместимом режиме DashScope