GPT-5、Gemini 2.5 Pro 与 Claude Opus 4 在 Aider Polyglot 编程基准上的对比
2026年6月17日 · 13 分钟阅读 · Claude / GPT / Gemini

计分板上有一个明确赢家
GPT-5 high 在 Aider Polyglot 上达到 88.0%。这意味着 225 个案例中解决了 198 个,而且这并不是排行榜上的微小波动。根据 Aider 官方 Polyglot 排行榜,在同一基准上,带 32k thinking 的 Gemini 2.5 Pro Preview 06-05 达到 83.1%,而带 32k thinking 的 Claude Opus 4 达到 72.0%(Aider)。
这个差距很重要,因为 Aider Polyglot 不是那种玩具级的“写一个 Fibonacci 函数”测试。Aider 将其描述为覆盖 C++、Go、Java、JavaScript、Python 和 Rust 的 225 道 Exercism 编程练习(Aider)。模型必须编辑代码、生成有效 diff,并让测试通过。这比一次性多选题基准更接近 agentic coding 的日常工作。
结论是:GPT-5 在原始通过率和每次成功修复成本上胜出。Gemini 在正确性上很接近,而且在输出格式纪律方面好得多。Claude Opus 4 在这个特定基准上显得昂贵且落后,尽管 Anthropic 在 2025 年 5 月发布它时将其定位为顶级编程模型(Anthropic)。

原始结果:通过率、成本、格式可靠性
下面是紧凑视图。这些是 Aider 运行结果,不是厂商营销数字。
| Model | Aider 运行日期 | 通过率 | 已解决 / 225 | 每次运行成本 | 每个已解决案例成本 | 正确编辑格式 | 编辑格式 |
|---|---|---|---|---|---|---|---|
| GPT-5 high | 2025-08-23 | 88.0% | 198 | $29.08 | $0.147 | 91.6% | diff |
| Gemini 2.5 Pro Preview 06-05, 32k thinking | 2025-06-06 | 83.1% | 187 | $49.88 | $0.267 | 99.6% | diff-fenced |
| Claude Opus 4 20250514, 32k thinking | 2025-05-25 | 72.0% | 162 | $65.75 | $0.406 | 97.3% | diff |
通过率差值很直观:
- GPT-5 领先 Gemini 4.9 个百分点,也就是多解决 11 个任务。
- GPT-5 领先 Claude Opus 4 16.0 个百分点,也就是多解决 36 个任务。
- Gemini 领先 Claude Opus 4 11.1 个百分点,也就是多解决 25 个任务。
成本差异更明显。GPT-5 的运行成本比 Gemini 低约 42%,比 Claude 低约 56%。Claude 每次运行成本约为 GPT-5 的 2.26 倍,却少解决 36 个案例。
这就是 Claude 在这里让人不太舒服的地方。Opus 4 不只是落后;它是在成本更高的同时落后。
为什么成本差距这么大
Token 标价解释了其中大部分原因。
OpenAI 在发布 API 模型家族时,将 GPT-5 定价为每百万输入 token $1.25、每百万输出 token $10(OpenAI)。Google 当前 Gemini 2.5 Pro 的标准价格同样是对于不超过 200k token 的 prompt,每百万输入 token $1.25、每百万输出 token $10;超过 200k 则采用更高费率(Google AI)。Anthropic 的 Claude Opus 4 定价为每百万输入 token $15、每百万输出 token $75,而 Anthropic 当前的价格页面现在将 Claude Opus 4 标记为除 Vertex AI 外已退役,同时仍列出这些历史费率(Anthropic Docs)。
Aider 的 token 使用量也符合这个解释。Gemini 运行使用了约 2.72M prompt token 和 4.65M completion token,几乎正好对应按 $1.25/$10 计价得出的 $49.88 报告运行成本。Claude 运行使用的 completion token 更少,约 363k,但 Opus 4 的 $75/M 输出价格仍将该次运行推高到 $65.75。
GPT-5 是有意思的案例。它使用了约 2.68M prompt token 和 2.62M completion token。它比 Gemini 解决了更多案例,同时少输出约 2.0M completion token。OpenAI 还表示 GPT-5 在 Aider Polyglot 上得分 88%,并在其面向开发者的发布文章中将其称为新纪录(OpenAI)。
对开发者来说,真正需要关注的是:基准成本不只是标价。它是标价乘以模型思考、重试、解释以及输出大型 diff 的倾向。

编辑格式:Gemini 是最规整的操作者
GPT-5 赢得了基准,但 Gemini 赢得了格式纪律这一列。
Aider 报告 Gemini 2.5 Pro Preview 06-05 的正确编辑格式为 99.6%,只有一个格式错误的响应。Claude Opus 4 也很强,为 97.3%。GPT-5 high 较低,为 91.6%,整次运行中有 22 个格式错误响应(Aider)。
这听起来像是一个很小的实现细节,直到你在真实代码库里运行 agent。糟糕的编辑格式意味着浪费轮次、补丁应用失败,或者需要人工来拯救工具。如果你的工作流是“模型提出 diff、CI 检查、agent 迭代”,格式可靠性就是智能的一部分。
不过,GPT-5 较低的格式分数并没有阻止它获胜。这说明两件事。第一,尽管格式错误尝试更多,它仍能恢复或产出足够多的正确编辑。第二,通过率终究是比规整程度更严苛的指标。格式完美但错误的补丁仍然是错的。
一个合理的解读是:当最难的部分是解决 bug 时,用 GPT-5。当你的流水线对严格 diff 格式高度敏感,并且可以接受已解决案例数小幅下降时,用 Gemini。
模型版本和日期陷阱
这个对比里有一个陷阱:这些是历史基准条目,并不是对 2026 年 6 月 17 日所有当前生产端点的声明。
Gemini 2.5 Pro Preview 06-05 于 2025 年 6 月 5 日发布,带有 adaptive thinking;Google 后来在 2025 年 6 月 17 日发布了稳定版 gemini-2.5-pro,其 changelog 表示旧的 preview ID 后来在模型生命周期中被关闭或重定向(Google AI changelog)。Claude Opus 4 于 2025 年 5 月 22 日发布,而 Anthropic 的价格文档现在将 Claude Opus 4 标记为除 Vertex AI 外已退役(Anthropic Docs)。GPT-5 更晚发布,于 2025 年 8 月 7 日发布,OpenAI 的 API 文章列出 gpt-5、gpt-5-mini 和 gpt-5-nano 是发布时的 API 尺寸(OpenAI)。
所以,公平的对比是:“这些具名模型在 Aider 记录的运行中表现如何?”而不是:“今天哪个厂商的最新模型家族最好?”
这种区别对采购和工程决策都很重要。如果你的团队今天要选择一个编程模型,请在自己的技术栈上重新跑一个小型内部评测。纳入你的代码库规模、测试延迟、偏好的编辑格式,以及实际的重试策略。
一个最小化的 harness 可以既枯燥又有用:
aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514
然后衡量已解决工单、补丁应用失败次数、CI 通过次数、墙钟时间,以及每个合并修复的美元成本。
我会选择什么
如果必须从这个 Aider 快照中为编程 agent 选择一个模型,我会从 GPT-5 high 开始。它拥有最高通过率、三者中最低的运行成本,以及最佳的每个已解决案例成本。91.6% 的正确编辑格式是个瑕疵,但不足以抹掉 88.0% 的解决率优势。
Gemini 2.5 Pro 是强有力的第二选择。它 83.1% 的通过率足够接近,采用严格补丁格式自动化的团队应该认真考虑它。99.6% 的正确编辑格式率非常出色。缺点是这次运行中的成本:$49.88 价格不低,却比 GPT-5 少解决 11 个案例。
Claude Opus 4 在这里很难推销。Anthropic 将 Opus 4 定位为严肃的编程和 agent 模型,而且它在发布时的其他编程基准上表现很强,包括 Anthropic 发布文章中关于 SWE-bench 和 Terminal-bench 的说法(Anthropic)。但在 Aider Polyglot 上,这次特定的 Opus 4 运行既更弱又更贵。除非你的内部工作负载显示出 Claude 特有的优势,例如代码库品味、长上下文协作,或更少的破坏性编辑,否则 Aider 数据并不能证明在这项任务上选择 Opus 4 而不是 GPT-5 或 Gemini 是合理的。
实用规则是:不要因为“最佳编程模型”这样的品牌宣称而购买。购买每美元通过的测试数,并把编辑可靠性作为护栏。
想亲手试用这些模型的读者,可以通过 onehop 使用 OpenAI 兼容 API 调用它们,只需更改一个 base_url。它比第一方更便宜,新账号包含 $10 免费额度,并且无需银行卡:在 onehop 上调用 Claude 和其他模型,或注册领取 $10 免费额度。
相关阅读

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6:Terminal-Bench 2.0 对比
Gemini 3.1 Pro 在共享 Terminal-Bench 2.0 框架中领先,但框架选择会改变 CLI 编码能力的结论。
2026年6月16日 · 13 分钟阅读

使用 OpenAI SDK 调用 Groq GPT-OSS 120B:Base URL、定价与缓存
只需替换 OpenAI SDK 的 base URL,即可在 Groq 上运行 GPT-OSS 120B,估算缓存 token 成本,并避免工具计费意外。
2026年6月17日 · 18 分钟阅读

在 Warp 中通过 SuperGrok 或 X Premium 订阅使用 Grok Build
xAI 现允许 Warp 用户连接 Grok 或 X Premium,并在终端 Agent 工作流中运行 grok-build-0.1。
2026年6月16日 · 12 分钟阅读