Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6：Terminal-Bench 2.0 对比

最关键的数字：68.5%

Google DeepMind 的 Gemini 3.1 Pro 模型卡显示，Gemini 3.1 Pro 使用 Terminus-2 框架在 Terminal-Bench 2.0 上达到 68.5%。在同一张表中，在相同框架配置下，Claude Opus 4.6 得分为 65.4%，GPT-5.3-Codex 得分为 64.7%，GPT-5.2 得分为 54.0%（Google DeepMind）。

这是当前公开材料中最干净的同条件对比行。它说明：如果你用同一个公开报告的 Terminus-2 设置来跑这些模型，Gemini 3.1 Pro 领先，Claude Opus 4.6 紧随其后，GPT-5.3-Codex 基本处于同一档，而 GPT-5.2 明显落后。

但这里有一个陷阱。Terminal-Bench 不只是模型基准测试。它是一个模型加智能体加框架的基准测试。

Epoch AI 的 Terminal-Bench 2.0 页面将该基准描述为一组任务，要求智能体在真实终端中操作：理解文件系统、使用已安装程序、推理正在运行的进程，并在不被逐条告知命令的情况下完成任务。它还说明，分数是按模型-智能体组合报告的，因为智能体会实质性地改变性能（Epoch AI）。这一句话应该改变你阅读每一个排行榜的方式。

奶油色背景上的水平条形图，对比 Terminal-Bench 2.0 Terminus-2 分数：Gemini 3.1 Pro 68.5，Claude Opu

开发者真正应该使用的基准表

下面是有用的截取版本，仅限于我能从一手来源验证的数字。

模型	Terminal-Bench 2.0 分数	框架 / 来源上下文	API 价格（如相关）
Gemini 3.1 Pro	68.5%	Google 模型卡中的 Terminus-2 框架	prompt ≤200k 时，每 100 万输入/输出 token 为 $2/$12；超过 200k 为 $4/$18（Google AI）
Claude Opus 4.6	65.4%	Google 模型卡中的 Terminus-2 框架；按 Google 方法说明引用公开排行榜	每 100 万输入/输出 token 为 $5/$25（Anthropic）
GPT-5.3-Codex	64.7%	Google 模型卡中的 Terminus-2 框架	OpenAI 的提供方运行结果报告为使用 Codex CLI 达到 77.3%，并非同一框架（OpenAI）
GPT-5.2	54.0%	Google 模型卡中的 Terminus-2 框架	每 100 万输入/输出 token 为 $1.75/$14（OpenAI）

在 Terminus-2 下的排序很直接：Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2。

更重要的工程结论则没那么整齐。Google 自己的方法论 PDF 表示，Gemini 分数是自行计算的，而非 Gemini 模型的数字通常由提供方报告，除非另有说明。具体到 Terminal-Bench 2.0，它表示 Gemini 3.1 Pro 是自行计算的，其他模型来自公开排行榜；并且会同时报告默认 Terminus-2 框架下的结果，以及在适用情况下其他最佳自报框架下的结果（Google DeepMind 方法论 PDF）。

所以公平的解读不是“Gemini 碾压所有人”。而是：在共享 Terminus-2 对比中，Gemini 领先 Claude 3.1 个百分点，领先 GPT-5.3-Codex 3.8 个百分点。GPT-5.2 在这个设置下明显落后。

为什么 GPT-5.3-Codex 有两个不同版本的故事

最容易让人困惑的是 GPT-5.3-Codex 这一行。

Google 的模型卡给出它在 Terminus-2 框架上的分数为 64.7%。同一张卡的下一行列出了“其他最佳自报框架”数字：GPT-5.2 为使用 Codex 达到 62.2%，GPT-5.3-Codex 为使用 Codex 达到 77.3%（Google DeepMind）。OpenAI 自己的 GPT-5.3-Codex 公告也报告了 Terminal-Bench 2.0 上 77.3% 的成绩，使用 xhigh 推理强度，并明确将该模型定位为面向 Codex 的编码智能体模型（OpenAI）。

二者可以同时成立。

CLI 编码智能体不是无状态的聊天补全。框架会决定文件如何暴露、命令如何运行、补丁如何应用、状态如何总结、模型有多少机会从错误路径中恢复，有时还会决定如何选择推理强度。如果你使用 Codex CLI，OpenAI 的 77.3% 数字就是相关的。如果你是在同一个第三方智能体框架内比较模型，那么 64.7% 的 Terminus-2 数字是更干净的对比。

这个区别可以直接映射到真实使用场景：

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

如果你的团队正在构建自己的 CLI 智能体，不要把提供方的最佳框架分数复制到电子表格里，然后称之为模型质量。应把它视为系统质量：模型、工具循环、记忆、重试策略、补丁机制、沙箱和 prompt 契约。

流程图展示“开发者任务”进入智能体框架，并拆分为模型、终端工具、文件系统状态，

Terminal-Bench 2.0 比 SWE-Bench 更擅长衡量什么

SWE-Bench 仍然有用，但 Terminal-Bench 捕捉的是另一类失败模式。模型可以生成看似合理的补丁，却仍然不擅长在 shell 中工作。

Terminal-Bench 任务包括在 QEMU 中构建 Linux 内核、配置 Git Web 服务器、破解给定 secret 的 7z 哈希、生成 OpenSSL 证书以及重塑数据文件等。Terminal-Bench 网站将 2.0 版本描述为覆盖软件工程、机器学习、安全、数据科学等领域的 89 个高质量任务（Terminal-Bench）。

这很重要，因为 CLI 智能体会以一些无聊但代价高昂的方式失败：

它们会忘记自己在文件系统中的位置。
它们运行命令后忽略 stderr，然后修改错误的文件。
它们通过了可见测试，却漏掉了隐藏不变量。
它们消耗 token 到处探索，而不是先形成计划。
它们在一次安装失败或一次不稳定测试后卡住。

在这些任务上，Gemini 3.1 Pro 的 68.5% Terminus-2 分数令人印象深刻，因为它暗示了强大的命令循环行为，而不仅仅是代码生成能力。Claude Opus 4.6 的 65.4% 已经足够接近，所以我不会仅凭基准差距就迁移一个成熟的 Claude Code 工作流。GPT-5.2 的 54.0% 是我会在困难终端自动化中避免使用的模型，除非成本是主导约束，或者你在它外面构建了非常强的框架。

为 CLI 编码智能体选择模型

我的实际排序取决于你要购买的是什么。

如果你想要最强的共享框架终端分数，从 Gemini 3.1 Pro 开始。它在已验证的对比行中领先，并且在 200k prompt token 以下的标准按 token 定价中比 Claude Opus 4.6 更便宜。问题在于：对于超过 200k 的大型代码库 prompt，Google 公布的价格会从每 100 万输入/输出 token $2/$12 提升到 $4/$18，因此长上下文智能体运行需要预算和缓存纪律（Google AI）。

如果你已经运行以 Claude 为主的工作流，Claude Opus 4.6 仍然是一个强选择。Anthropic 于 2026 年 2 月 5 日发布 Opus 4.6，带来更强的编码能力、更长的智能体任务表现，并在开发者平台 beta 中提供 100 万 token 上下文窗口（Anthropic）。它的 65.4% Terminus-2 分数接近 Gemini。价格更高：标准定价中，每百万 token 输入 $5、输出 $25。

如果你想要最好的 Codex 专属终端分数，GPT-5.3-Codex 值得单独评估。它由提供方报告的 77.3% Terminal-Bench 2.0 分数绑定在 OpenAI 的 Codex 设置上，而共享 Terminus-2 行是 64.7%。这并不矛盾。它是一张警示标签。

如果你正在考虑 GPT-5.2，理由应是成本和通用能力，而不是顶级终端智能体能力。OpenAI 将 GPT-5.2 定价为每百万输入/输出 token $1.75/$14，并表示它在 API 中支持 xhigh 推理强度（OpenAI）。但在共享 Terminal-Bench 2.0 行中，54.0% 是一个很大的差距。

结论

对于基于终端的编码智能体，我会这样列入候选：Gemini 3.1 Pro 用于最佳共享框架 Terminal-Bench 2.0 表现，Claude Opus 4.6 用于重视长上下文编码可靠性且已经信任 Claude 工作流的团队，GPT-5.3-Codex 用于目标运行时就是 Codex 本身的场景，而 GPT-5.2 只适合价格或 API 可用性比终端成功率更重要的情况。

主要教训是方法论层面的。Terminal-Bench 分数从来不只是“模型”的分数。对于构建 CLI 智能体的开发者来说，框架也是产品的一部分。两个数字都要跟踪：共享框架分数告诉你原始可移植性，提供方框架分数告诉你完整原生栈能做到什么。

想亲手试用这些模型的读者，可以通过 OpenAI 兼容 API 在 onehop 上调用 Claude 和其他模型：只需更改一个 base_url，其余客户端基本保持不变，并将成本与官方直连路线进行比较。新账号可获得 $10 免费额度，无需银行卡：在 onehop 上调用 Claude 和其他模型，或注册领取 $10 免费额度。

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6：Terminal-Bench 2.0 对比

最关键的数字：68.5%

开发者真正应该使用的基准表

为什么 GPT-5.3-Codex 有两个不同版本的故事

Terminal-Bench 2.0 比 SWE-Bench 更擅长衡量什么

为 CLI 编码智能体选择模型

结论

相关阅读

GPT-5.6 Sol、Claude Fable 5 与 Gemini 3.1 Pro 在 SWE-Bench Pro 上的对比

GPT-5、Gemini 2.5 Pro 与 Claude Opus 4 在 Aider Polyglot 编程基准上的对比

通过 DashScope 兼容模式用 OpenAI SDK 调用 Qwen3.7 Plus