Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6:Terminal-Bench 2.0 对比
2026年6月16日 · 13 分钟阅读 · Claude / GPT / Gemini

最关键的数字:68.5%
Google DeepMind 的 Gemini 3.1 Pro 模型卡显示,Gemini 3.1 Pro 使用 Terminus-2 框架在 Terminal-Bench 2.0 上达到 68.5%。在同一张表中,在相同框架配置下,Claude Opus 4.6 得分为 65.4%,GPT-5.3-Codex 得分为 64.7%,GPT-5.2 得分为 54.0%(Google DeepMind)。
这是当前公开材料中最干净的同条件对比行。它说明:如果你用同一个公开报告的 Terminus-2 设置来跑这些模型,Gemini 3.1 Pro 领先,Claude Opus 4.6 紧随其后,GPT-5.3-Codex 基本处于同一档,而 GPT-5.2 明显落后。
但这里有一个陷阱。Terminal-Bench 不只是模型基准测试。它是一个模型加智能体加框架的基准测试。
Epoch AI 的 Terminal-Bench 2.0 页面将该基准描述为一组任务,要求智能体在真实终端中操作:理解文件系统、使用已安装程序、推理正在运行的进程,并在不被逐条告知命令的情况下完成任务。它还说明,分数是按模型-智能体组合报告的,因为智能体会实质性地改变性能(Epoch AI)。这一句话应该改变你阅读每一个排行榜的方式。

开发者真正应该使用的基准表
下面是有用的截取版本,仅限于我能从一手来源验证的数字。
| 模型 | Terminal-Bench 2.0 分数 | 框架 / 来源上下文 | API 价格(如相关) |
|---|---|---|---|
| Gemini 3.1 Pro | 68.5% | Google 模型卡中的 Terminus-2 框架 | prompt ≤200k 时,每 100 万输入/输出 token 为 $2/$12;超过 200k 为 $4/$18(Google AI) |
| Claude Opus 4.6 | 65.4% | Google 模型卡中的 Terminus-2 框架;按 Google 方法说明引用公开排行榜 | 每 100 万输入/输出 token 为 $5/$25(Anthropic) |
| GPT-5.3-Codex | 64.7% | Google 模型卡中的 Terminus-2 框架 | OpenAI 的提供方运行结果报告为使用 Codex CLI 达到 77.3%,并非同一框架(OpenAI) |
| GPT-5.2 | 54.0% | Google 模型卡中的 Terminus-2 框架 | 每 100 万输入/输出 token 为 $1.75/$14(OpenAI) |
在 Terminus-2 下的排序很直接:Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2。
更重要的工程结论则没那么整齐。Google 自己的方法论 PDF 表示,Gemini 分数是自行计算的,而非 Gemini 模型的数字通常由提供方报告,除非另有说明。具体到 Terminal-Bench 2.0,它表示 Gemini 3.1 Pro 是自行计算的,其他模型来自公开排行榜;并且会同时报告默认 Terminus-2 框架下的结果,以及在适用情况下其他最佳自报框架下的结果(Google DeepMind 方法论 PDF)。
所以公平的解读不是“Gemini 碾压所有人”。而是:在共享 Terminus-2 对比中,Gemini 领先 Claude 3.1 个百分点,领先 GPT-5.3-Codex 3.8 个百分点。GPT-5.2 在这个设置下明显落后。
为什么 GPT-5.3-Codex 有两个不同版本的故事
最容易让人困惑的是 GPT-5.3-Codex 这一行。
Google 的模型卡给出它在 Terminus-2 框架上的分数为 64.7%。同一张卡的下一行列出了“其他最佳自报框架”数字:GPT-5.2 为使用 Codex 达到 62.2%,GPT-5.3-Codex 为使用 Codex 达到 77.3%(Google DeepMind)。OpenAI 自己的 GPT-5.3-Codex 公告也报告了 Terminal-Bench 2.0 上 77.3% 的成绩,使用 xhigh 推理强度,并明确将该模型定位为面向 Codex 的编码智能体模型(OpenAI)。
二者可以同时成立。
CLI 编码智能体不是无状态的聊天补全。框架会决定文件如何暴露、命令如何运行、补丁如何应用、状态如何总结、模型有多少机会从错误路径中恢复,有时还会决定如何选择推理强度。如果你使用 Codex CLI,OpenAI 的 77.3% 数字就是相关的。如果你是在同一个第三方智能体框架内比较模型,那么 64.7% 的 Terminus-2 数字是更干净的对比。
这个区别可以直接映射到真实使用场景:
# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli
如果你的团队正在构建自己的 CLI 智能体,不要把提供方的最佳框架分数复制到电子表格里,然后称之为模型质量。应把它视为系统质量:模型、工具循环、记忆、重试策略、补丁机制、沙箱和 prompt 契约。

Terminal-Bench 2.0 比 SWE-Bench 更擅长衡量什么
SWE-Bench 仍然有用,但 Terminal-Bench 捕捉的是另一类失败模式。模型可以生成看似合理的补丁,却仍然不擅长在 shell 中工作。
Terminal-Bench 任务包括在 QEMU 中构建 Linux 内核、配置 Git Web 服务器、破解给定 secret 的 7z 哈希、生成 OpenSSL 证书以及重塑数据文件等。Terminal-Bench 网站将 2.0 版本描述为覆盖软件工程、机器学习、安全、数据科学等领域的 89 个高质量任务(Terminal-Bench)。
这很重要,因为 CLI 智能体会以一些无聊但代价高昂的方式失败:
- 它们会忘记自己在文件系统中的位置。
- 它们运行命令后忽略 stderr,然后修改错误的文件。
- 它们通过了可见测试,却漏掉了隐藏不变量。
- 它们消耗 token 到处探索,而不是先形成计划。
- 它们在一次安装失败或一次不稳定测试后卡住。
在这些任务上,Gemini 3.1 Pro 的 68.5% Terminus-2 分数令人印象深刻,因为它暗示了强大的命令循环行为,而不仅仅是代码生成能力。Claude Opus 4.6 的 65.4% 已经足够接近,所以我不会仅凭基准差距就迁移一个成熟的 Claude Code 工作流。GPT-5.2 的 54.0% 是我会在困难终端自动化中避免使用的模型,除非成本是主导约束,或者你在它外面构建了非常强的框架。
为 CLI 编码智能体选择模型
我的实际排序取决于你要购买的是什么。
如果你想要最强的共享框架终端分数,从 Gemini 3.1 Pro 开始。它在已验证的对比行中领先,并且在 200k prompt token 以下的标准按 token 定价中比 Claude Opus 4.6 更便宜。问题在于:对于超过 200k 的大型代码库 prompt,Google 公布的价格会从每 100 万输入/输出 token $2/$12 提升到 $4/$18,因此长上下文智能体运行需要预算和缓存纪律(Google AI)。
如果你已经运行以 Claude 为主的工作流,Claude Opus 4.6 仍然是一个强选择。Anthropic 于 2026 年 2 月 5 日发布 Opus 4.6,带来更强的编码能力、更长的智能体任务表现,并在开发者平台 beta 中提供 100 万 token 上下文窗口(Anthropic)。它的 65.4% Terminus-2 分数接近 Gemini。价格更高:标准定价中,每百万 token 输入 $5、输出 $25。
如果你想要最好的 Codex 专属终端分数,GPT-5.3-Codex 值得单独评估。它由提供方报告的 77.3% Terminal-Bench 2.0 分数绑定在 OpenAI 的 Codex 设置上,而共享 Terminus-2 行是 64.7%。这并不矛盾。它是一张警示标签。
如果你正在考虑 GPT-5.2,理由应是成本和通用能力,而不是顶级终端智能体能力。OpenAI 将 GPT-5.2 定价为每百万输入/输出 token $1.75/$14,并表示它在 API 中支持 xhigh 推理强度(OpenAI)。但在共享 Terminal-Bench 2.0 行中,54.0% 是一个很大的差距。
结论
对于基于终端的编码智能体,我会这样列入候选:Gemini 3.1 Pro 用于最佳共享框架 Terminal-Bench 2.0 表现,Claude Opus 4.6 用于重视长上下文编码可靠性且已经信任 Claude 工作流的团队,GPT-5.3-Codex 用于目标运行时就是 Codex 本身的场景,而 GPT-5.2 只适合价格或 API 可用性比终端成功率更重要的情况。
主要教训是方法论层面的。Terminal-Bench 分数从来不只是“模型”的分数。对于构建 CLI 智能体的开发者来说,框架也是产品的一部分。两个数字都要跟踪:共享框架分数告诉你原始可移植性,提供方框架分数告诉你完整原生栈能做到什么。
想亲手试用这些模型的读者,可以通过 OpenAI 兼容 API 在 onehop 上调用 Claude 和其他模型:只需更改一个 base_url,其余客户端基本保持不变,并将成本与官方直连路线进行比较。新账号可获得 $10 免费额度,无需银行卡:在 onehop 上调用 Claude 和其他模型,或注册领取 $10 免费额度。
相关阅读

GPT-5、Gemini 2.5 Pro 与 Claude Opus 4 在 Aider Polyglot 编程基准上的对比
以数据为先,对比 GPT-5、Gemini 2.5 Pro 和 Claude Opus 4 在 Aider Polyglot 编程基准上的表现。
2026年6月17日 · 13 分钟阅读

使用 OpenAI SDK 调用 Groq GPT-OSS 120B:Base URL、定价与缓存
只需替换 OpenAI SDK 的 base URL,即可在 Groq 上运行 GPT-OSS 120B,估算缓存 token 成本,并避免工具计费意外。
2026年6月17日 · 18 分钟阅读

在 Warp 中通过 SuperGrok 或 X Premium 订阅使用 Grok Build
xAI 现允许 Warp 用户连接 Grok 或 X Premium,并在终端 Agent 工作流中运行 grok-build-0.1。
2026年6月16日 · 12 分钟阅读