Назад ко всем статьям
Бенчмарки

Gemini 3.1 Pro против GPT-5.2 и Claude Opus 4.6 на Terminal-Bench 2.0

16 июня 2026 г. · 23 мин чтения · Claude / GPT / Gemini

Редакционная обложка на кремовом фоне: три абстрактных окна терминала в виде сложенных угольных карточек, каждое соединено с

Главное число: 68,5%

В model card Google DeepMind для Gemini 3.1 Pro указано, что Gemini 3.1 Pro набирает 68,5% на Terminal-Bench 2.0 при использовании harness Terminus-2. В той же таблице Claude Opus 4.6 получает 65,4%, GPT-5.3-Codex — 64,7%, а GPT-5.2 — 54,0% в той же строке harness (Google DeepMind).

Это самая чистая строка для сравнения «яблок с яблоками» в текущих публичных материалах. Она говорит следующее: если прогонять эти модели через один и тот же заявленный сетап Terminus-2, Gemini 3.1 Pro впереди, Claude Opus 4.6 близко, GPT-5.3-Codex находится примерно в той же группе, а GPT-5.2 заметно отстает.

Но здесь есть ловушка. Terminal-Bench — это не просто бенчмарк модели. Это бенчмарк модели плюс агента плюс harness.

Страница Epoch AI о Terminal-Bench 2.0 описывает бенчмарк как набор задач, где агенты должны работать внутри настоящего терминала: понимать файловую систему, использовать установленные программы, рассуждать о запущенных процессах и выполнять задачи без пошагового указания каждой команды. Там также сказано, что результаты публикуются для комбинаций «модель-агент», потому что агент может существенно менять производительность (Epoch AI). Одно это предложение должно изменить то, как вы читаете любой leaderboard.

Горизонтальная столбчатая диаграмма на кремовом фоне, сравнивающая результаты Terminal-Bench 2.0 Terminus-2: Gemini 3.1 Pro 68.5, Claude Opu

Таблица бенчмарка, которой разработчикам действительно стоит пользоваться

Вот полезный срез, ограниченный числами, которые удалось проверить по первоисточникам.

Модель Результат Terminal-Bench 2.0 Контекст harness / источника Цена API, если релевантно
Gemini 3.1 Pro 68,5% Harness Terminus-2 в model card Google $2/$12 за 1 млн входных/выходных токенов для промптов ≤200k; $4/$18 выше 200k (Google AI)
Claude Opus 4.6 65,4% Harness Terminus-2 в model card Google; публичный leaderboard согласно примечанию Google о методологии $5/$25 за 1 млн входных/выходных токенов (Anthropic)
GPT-5.3-Codex 64,7% Harness Terminus-2 в model card Google Прогон провайдера OpenAI показывает 77,3% при использовании Codex CLI, это не тот же harness (OpenAI)
GPT-5.2 54,0% Harness Terminus-2 в model card Google $1.75/$14 за 1 млн входных/выходных токенов (OpenAI)

Порядок в Terminus-2 однозначен: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

Более важный инженерный вывод менее аккуратен. В собственном PDF Google с методологией сказано, что результаты Gemini посчитаны самостоятельно, а числа для не-Gemini моделей обычно предоставлены провайдерами, если не указано иное. Конкретно для Terminal-Bench 2.0 там сказано, что результат Gemini 3.1 Pro посчитан самостоятельно, другие модели взяты из публичного leaderboard, а результаты приведены как для стандартного harness Terminus-2, так и для других лучших самостоятельно заявленных harness, где это применимо (PDF с методологией Google DeepMind).

Так что честное прочтение — не «Gemini разгромила всех». А вот такое: Gemini лидирует в общем сравнении на Terminus-2 на 3,1 процентного пункта относительно Claude и на 3,8 пункта относительно GPT-5.3-Codex. GPT-5.2 в этом сетапе явно отстает.

Почему у GPT-5.3-Codex две разные истории

Самая запутанная строка — GPT-5.3-Codex.

Model card Google дает ей 64,7% на harness Terminus-2. Строкой ниже в той же карточке перечислены показатели “other best self-reported harness”: GPT-5.2 — 62,2% using Codex, а GPT-5.3-Codex — 77,3% using Codex (Google DeepMind). Собственный анонс GPT-5.3-Codex от OpenAI также сообщает 77,3% на Terminal-Bench 2.0, с xhigh reasoning effort, и явно позиционирует модель как модель coding agent для Codex (OpenAI).

Оба утверждения могут быть верны.

CLI-агент для кодинга — это не stateless chat completion. Harness определяет, как предоставляются файлы, как выполняются команды, как применяются патчи, как суммаризируется состояние, как часто модель может восстановиться после неверного пути, а иногда и как выбирается reasoning effort. Если вы используете Codex CLI, число OpenAI 77,3% релевантно. Если вы сравниваете модели внутри одного и того же стороннего agent harness, число 64,7% на Terminus-2 — более чистое сравнение.

Это различие напрямую переносится на реальное использование:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

Если ваша команда строит собственного CLI-агента, не копируйте лучший provider harness score в таблицу и не называйте это качеством модели. Рассматривайте его как качество системы: модель, цикл работы с инструментами, память, retry policy, механика патчей, sandbox и prompt contract.

Блок-схема, где “developer task” входит в agent harness и разделяется на model, terminal tools, filesystem state,

Что Terminal-Bench 2.0 измеряет лучше, чем SWE-Bench

SWE-Bench по-прежнему полезен, но Terminal-Bench ловит другой тип отказов. Модель может сгенерировать правдоподобный патч и при этом плохо жить внутри shell.

Задачи Terminal-Bench включают, например, сборку Linux kernel в QEMU, настройку Git web server, взлом 7z hash для предоставленного секрета, генерацию OpenSSL certificates и преобразование файлов с данными. Сайт Terminal-Bench описывает версию 2.0 как 89 высококачественных задач в области software engineering, machine learning, security, data science и других направлений (Terminal-Bench).

Это важно, потому что CLI-агенты падают скучными и дорогими способами:

  • Они забывают, где находятся в файловой системе.
  • Они запускают команду, игнорируют stderr и патчат не тот файл.
  • Они проходят видимые тесты, но упускают скрытый инвариант.
  • Они сжигают токены на исследование вместо того, чтобы сформировать план.
  • Они застревают после одной неудачной установки или одного flaky test.

На таких задачах результат Gemini 3.1 Pro в 68,5% на Terminus-2 впечатляет, потому что указывает на сильное поведение в командном цикле, а не только на синтез кода. Claude Opus 4.6 с 65,4% достаточно близко, чтобы я не стал мигрировать зрелый workflow на Claude Code только из-за разницы в бенчмарке. GPT-5.2 с 54,0% — та модель, которую я бы избегал для сложной терминальной автоматизации, если только стоимость не является главным ограничением или вокруг нее не построен очень сильный harness.

Выбор модели для CLI-агента кодинга

Мой практический рейтинг зависит от того, что именно вы покупаете.

Если вам нужен самый сильный terminal score в общем harness, начните с Gemini 3.1 Pro. Она лидирует в проверенной сравнительной строке и дешевле Claude Opus 4.6 при стандартной пот токенной цене для промптов ниже 200k токенов. Нюанс: для промптов по большим репозиториям выше 200k опубликованная цена Google повышается с $2/$12 до $4/$18 за 1 млн входных/выходных токенов, так что long-context прогонам агента нужны бюджеты и дисциплина в кэшировании (Google AI).

Если у вас уже workflow, сильно завязанный на Claude, Claude Opus 4.6 остается сильным выбором. Anthropic выпустила Opus 4.6 5 февраля 2026 года, с более сильным кодингом, более длительной работой на агентных задачах и контекстным окном на 1 млн токенов в бете для developer platform (Anthropic). Ее результат 65,4% на Terminus-2 близок к Gemini. Цена выше: $5 за вход и $25 за выход на миллион токенов в стандартном прайсинге.

Если вам нужен лучший terminal number именно для Codex, GPT-5.3-Codex заслуживает отдельной оценки. Ее заявленный провайдером результат 77,3% на Terminal-Bench 2.0 привязан к сетапу OpenAI Codex, тогда как в общей строке Terminus-2 — 64,7%. Это не противоречие. Это предупреждающая маркировка.

Если вы смотрите на GPT-5.2, аргументы в ее пользу — стоимость и общие возможности, а не пиковая terminal agency. OpenAI оценивает GPT-5.2 в $1.75/$14 за миллион входных/выходных токенов и говорит, что в API поддерживается xhigh reasoning effort (OpenAI). Но в общей строке Terminal-Bench 2.0 результат 54,0% — это большой разрыв.

Итог

Для терминальных coding agents я бы сформировал шорт-лист так: Gemini 3.1 Pro — за лучшую производительность Terminal-Bench 2.0 в общем harness, Claude Opus 4.6 — для команд, которым важны надежность long-context кодинга и уже привычные Claude workflows, GPT-5.3-Codex — когда целевая среда выполнения — сам Codex, и GPT-5.2 — только когда цена или доступность API важнее, чем доля успешных терминальных задач.

Главный урок — методологический. Результат Terminal-Bench никогда не означает просто «модель». Для разработчиков, строящих CLI-агентов, harness — часть продукта. Отслеживайте оба числа: shared-harness score, который показывает сырую переносимость, и provider-harness score, который показывает, на что способен полный нативный стек.

Читатели, которые хотят попробовать эти модели на практике, могут вызывать Claude и другие модели в onehop через OpenAI-compatible API: поменяйте один base_url, оставьте остальную часть клиента почти без изменений и сравните затраты с прямыми маршрутами к провайдерам. Новые аккаунты получают $10 бесплатного кредита без необходимости привязывать карту: вызывать Claude и другие модели в onehop или зарегистрироваться и получить $10 бесплатного кредита.