返回全部文章
评测

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6:Terminal-Bench 2.0 对比

2026年6月16日 · 13 分钟阅读 · Claude / GPT / Gemini

奶油色背景的编辑风封面,展示三个抽象终端窗口,像炭黑色卡片一样层叠排列,每个都连接到一个

最关键的数字:68.5%

Google DeepMind 的 Gemini 3.1 Pro 模型卡显示,Gemini 3.1 Pro 使用 Terminus-2 框架在 Terminal-Bench 2.0 上达到 68.5%。在同一张表中,在相同框架配置下,Claude Opus 4.6 得分为 65.4%,GPT-5.3-Codex 得分为 64.7%,GPT-5.2 得分为 54.0%Google DeepMind)。

这是当前公开材料中最干净的同条件对比行。它说明:如果你用同一个公开报告的 Terminus-2 设置来跑这些模型,Gemini 3.1 Pro 领先,Claude Opus 4.6 紧随其后,GPT-5.3-Codex 基本处于同一档,而 GPT-5.2 明显落后。

但这里有一个陷阱。Terminal-Bench 不只是模型基准测试。它是一个模型加智能体加框架的基准测试。

Epoch AI 的 Terminal-Bench 2.0 页面将该基准描述为一组任务,要求智能体在真实终端中操作:理解文件系统、使用已安装程序、推理正在运行的进程,并在不被逐条告知命令的情况下完成任务。它还说明,分数是按模型-智能体组合报告的,因为智能体会实质性地改变性能(Epoch AI)。这一句话应该改变你阅读每一个排行榜的方式。

奶油色背景上的水平条形图,对比 Terminal-Bench 2.0 Terminus-2 分数:Gemini 3.1 Pro 68.5,Claude Opu

开发者真正应该使用的基准表

下面是有用的截取版本,仅限于我能从一手来源验证的数字。

模型 Terminal-Bench 2.0 分数 框架 / 来源上下文 API 价格(如相关)
Gemini 3.1 Pro 68.5% Google 模型卡中的 Terminus-2 框架 prompt ≤200k 时,每 100 万输入/输出 token 为 $2/$12;超过 200k 为 $4/$18(Google AI
Claude Opus 4.6 65.4% Google 模型卡中的 Terminus-2 框架;按 Google 方法说明引用公开排行榜 每 100 万输入/输出 token 为 $5/$25(Anthropic
GPT-5.3-Codex 64.7% Google 模型卡中的 Terminus-2 框架 OpenAI 的提供方运行结果报告为使用 Codex CLI 达到 77.3%,并非同一框架(OpenAI
GPT-5.2 54.0% Google 模型卡中的 Terminus-2 框架 每 100 万输入/输出 token 为 $1.75/$14(OpenAI

在 Terminus-2 下的排序很直接:Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2

更重要的工程结论则没那么整齐。Google 自己的方法论 PDF 表示,Gemini 分数是自行计算的,而非 Gemini 模型的数字通常由提供方报告,除非另有说明。具体到 Terminal-Bench 2.0,它表示 Gemini 3.1 Pro 是自行计算的,其他模型来自公开排行榜;并且会同时报告默认 Terminus-2 框架下的结果,以及在适用情况下其他最佳自报框架下的结果(Google DeepMind 方法论 PDF)。

所以公平的解读不是“Gemini 碾压所有人”。而是:在共享 Terminus-2 对比中,Gemini 领先 Claude 3.1 个百分点,领先 GPT-5.3-Codex 3.8 个百分点。GPT-5.2 在这个设置下明显落后。

为什么 GPT-5.3-Codex 有两个不同版本的故事

最容易让人困惑的是 GPT-5.3-Codex 这一行。

Google 的模型卡给出它在 Terminus-2 框架上的分数为 64.7%。同一张卡的下一行列出了“其他最佳自报框架”数字:GPT-5.2 为使用 Codex 达到 62.2%,GPT-5.3-Codex 为使用 Codex 达到 77.3%Google DeepMind)。OpenAI 自己的 GPT-5.3-Codex 公告也报告了 Terminal-Bench 2.0 上 77.3% 的成绩,使用 xhigh 推理强度,并明确将该模型定位为面向 Codex 的编码智能体模型(OpenAI)。

二者可以同时成立。

CLI 编码智能体不是无状态的聊天补全。框架会决定文件如何暴露、命令如何运行、补丁如何应用、状态如何总结、模型有多少机会从错误路径中恢复,有时还会决定如何选择推理强度。如果你使用 Codex CLI,OpenAI 的 77.3% 数字就是相关的。如果你是在同一个第三方智能体框架内比较模型,那么 64.7% 的 Terminus-2 数字是更干净的对比。

这个区别可以直接映射到真实使用场景:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

如果你的团队正在构建自己的 CLI 智能体,不要把提供方的最佳框架分数复制到电子表格里,然后称之为模型质量。应把它视为系统质量:模型、工具循环、记忆、重试策略、补丁机制、沙箱和 prompt 契约。

流程图展示“开发者任务”进入智能体框架,并拆分为模型、终端工具、文件系统状态,

Terminal-Bench 2.0 比 SWE-Bench 更擅长衡量什么

SWE-Bench 仍然有用,但 Terminal-Bench 捕捉的是另一类失败模式。模型可以生成看似合理的补丁,却仍然不擅长在 shell 中工作。

Terminal-Bench 任务包括在 QEMU 中构建 Linux 内核、配置 Git Web 服务器、破解给定 secret 的 7z 哈希、生成 OpenSSL 证书以及重塑数据文件等。Terminal-Bench 网站将 2.0 版本描述为覆盖软件工程、机器学习、安全、数据科学等领域的 89 个高质量任务Terminal-Bench)。

这很重要,因为 CLI 智能体会以一些无聊但代价高昂的方式失败:

  • 它们会忘记自己在文件系统中的位置。
  • 它们运行命令后忽略 stderr,然后修改错误的文件。
  • 它们通过了可见测试,却漏掉了隐藏不变量。
  • 它们消耗 token 到处探索,而不是先形成计划。
  • 它们在一次安装失败或一次不稳定测试后卡住。

在这些任务上,Gemini 3.1 Pro 的 68.5% Terminus-2 分数令人印象深刻,因为它暗示了强大的命令循环行为,而不仅仅是代码生成能力。Claude Opus 4.6 的 65.4% 已经足够接近,所以我不会仅凭基准差距就迁移一个成熟的 Claude Code 工作流。GPT-5.2 的 54.0% 是我会在困难终端自动化中避免使用的模型,除非成本是主导约束,或者你在它外面构建了非常强的框架。

为 CLI 编码智能体选择模型

我的实际排序取决于你要购买的是什么。

如果你想要最强的共享框架终端分数,从 Gemini 3.1 Pro 开始。它在已验证的对比行中领先,并且在 200k prompt token 以下的标准按 token 定价中比 Claude Opus 4.6 更便宜。问题在于:对于超过 200k 的大型代码库 prompt,Google 公布的价格会从每 100 万输入/输出 token $2/$12 提升到 $4/$18,因此长上下文智能体运行需要预算和缓存纪律(Google AI)。

如果你已经运行以 Claude 为主的工作流,Claude Opus 4.6 仍然是一个强选择。Anthropic 于 2026 年 2 月 5 日发布 Opus 4.6,带来更强的编码能力、更长的智能体任务表现,并在开发者平台 beta 中提供 100 万 token 上下文窗口(Anthropic)。它的 65.4% Terminus-2 分数接近 Gemini。价格更高:标准定价中,每百万 token 输入 $5、输出 $25。

如果你想要最好的 Codex 专属终端分数,GPT-5.3-Codex 值得单独评估。它由提供方报告的 77.3% Terminal-Bench 2.0 分数绑定在 OpenAI 的 Codex 设置上,而共享 Terminus-2 行是 64.7%。这并不矛盾。它是一张警示标签。

如果你正在考虑 GPT-5.2,理由应是成本和通用能力,而不是顶级终端智能体能力。OpenAI 将 GPT-5.2 定价为每百万输入/输出 token $1.75/$14,并表示它在 API 中支持 xhigh 推理强度(OpenAI)。但在共享 Terminal-Bench 2.0 行中,54.0% 是一个很大的差距。

结论

对于基于终端的编码智能体,我会这样列入候选:Gemini 3.1 Pro 用于最佳共享框架 Terminal-Bench 2.0 表现,Claude Opus 4.6 用于重视长上下文编码可靠性且已经信任 Claude 工作流的团队,GPT-5.3-Codex 用于目标运行时就是 Codex 本身的场景,而 GPT-5.2 只适合价格或 API 可用性比终端成功率更重要的情况。

主要教训是方法论层面的。Terminal-Bench 分数从来不只是“模型”的分数。对于构建 CLI 智能体的开发者来说,框架也是产品的一部分。两个数字都要跟踪:共享框架分数告诉你原始可移植性,提供方框架分数告诉你完整原生栈能做到什么。

想亲手试用这些模型的读者,可以通过 OpenAI 兼容 API 在 onehop 上调用 Claude 和其他模型:只需更改一个 base_url,其余客户端基本保持不变,并将成本与官方直连路线进行比较。新账号可获得 $10 免费额度,无需银行卡:在 onehop 上调用 Claude 和其他模型,或注册领取 $10 免费额度