GPT-5、Gemini 2.5 Pro 与 Claude Opus 4 在 Aider Polyglot 编程基准上的对比

计分板上有一个明确赢家

GPT-5 high 在 Aider Polyglot 上达到 88.0%。这意味着 225 个案例中解决了 198 个，而且这并不是排行榜上的微小波动。根据 Aider 官方 Polyglot 排行榜，在同一基准上，带 32k thinking 的 Gemini 2.5 Pro Preview 06-05 达到 83.1%，而带 32k thinking 的 Claude Opus 4 达到 72.0%（Aider）。

这个差距很重要，因为 Aider Polyglot 不是那种玩具级的“写一个 Fibonacci 函数”测试。Aider 将其描述为覆盖 C++、Go、Java、JavaScript、Python 和 Rust 的 225 道 Exercism 编程练习（Aider）。模型必须编辑代码、生成有效 diff，并让测试通过。这比一次性多选题基准更接近 agentic coding 的日常工作。

结论是：GPT-5 在原始通过率和每次成功修复成本上胜出。Gemini 在正确性上很接近，而且在输出格式纪律方面好得多。Claude Opus 4 在这个特定基准上显得昂贵且落后，尽管 Anthropic 在 2025 年 5 月发布它时将其定位为顶级编程模型（Anthropic）。

横向条形图，对比 Aider Polyglot 通过率：GPT-5 high 为 88.0%，Gemini 2.5 Pro Preview 06-05 32k thinki

原始结果：通过率、成本、格式可靠性

下面是紧凑视图。这些是 Aider 运行结果，不是厂商营销数字。

Model	Aider 运行日期	通过率	已解决 / 225	每次运行成本	每个已解决案例成本	正确编辑格式	编辑格式
GPT-5 high	2025-08-23	88.0%	198	$29.08	$0.147	91.6%	diff
Gemini 2.5 Pro Preview 06-05, 32k thinking	2025-06-06	83.1%	187	$49.88	$0.267	99.6%	diff-fenced
Claude Opus 4 20250514, 32k thinking	2025-05-25	72.0%	162	$65.75	$0.406	97.3%	diff

通过率差值很直观：

GPT-5 领先 Gemini 4.9 个百分点，也就是多解决 11 个任务。
GPT-5 领先 Claude Opus 4 16.0 个百分点，也就是多解决 36 个任务。
Gemini 领先 Claude Opus 4 11.1 个百分点，也就是多解决 25 个任务。

成本差异更明显。GPT-5 的运行成本比 Gemini 低约 42%，比 Claude 低约 56%。Claude 每次运行成本约为 GPT-5 的 2.26 倍，却少解决 36 个案例。

这就是 Claude 在这里让人不太舒服的地方。Opus 4 不只是落后；它是在成本更高的同时落后。

为什么成本差距这么大

Token 标价解释了其中大部分原因。

OpenAI 在发布 API 模型家族时，将 GPT-5 定价为每百万输入 token $1.25、每百万输出 token $10（OpenAI）。Google 当前 Gemini 2.5 Pro 的标准价格同样是对于不超过 200k token 的 prompt，每百万输入 token $1.25、每百万输出 token $10；超过 200k 则采用更高费率（Google AI）。Anthropic 的 Claude Opus 4 定价为每百万输入 token $15、每百万输出 token $75，而 Anthropic 当前的价格页面现在将 Claude Opus 4 标记为除 Vertex AI 外已退役，同时仍列出这些历史费率（Anthropic Docs）。

Aider 的 token 使用量也符合这个解释。Gemini 运行使用了约 2.72M prompt token 和 4.65M completion token，几乎正好对应按 $1.25/$10 计价得出的 $49.88 报告运行成本。Claude 运行使用的 completion token 更少，约 363k，但 Opus 4 的 $75/M 输出价格仍将该次运行推高到 $65.75。

GPT-5 是有意思的案例。它使用了约 2.68M prompt token 和 2.62M completion token。它比 Gemini 解决了更多案例，同时少输出约 2.0M completion token。OpenAI 还表示 GPT-5 在 Aider Polyglot 上得分 88%，并在其面向开发者的发布文章中将其称为新纪录（OpenAI）。

对开发者来说，真正需要关注的是：基准成本不只是标价。它是标价乘以模型思考、重试、解释以及输出大型 diff 的倾向。

散点图，x 轴为每次 Aider 运行成本，y 轴为通过率；GPT-5 high 位于左上角，$29.08 和 88.0%，Gemini 2

编辑格式：Gemini 是最规整的操作者

GPT-5 赢得了基准，但 Gemini 赢得了格式纪律这一列。

Aider 报告 Gemini 2.5 Pro Preview 06-05 的正确编辑格式为 99.6%，只有一个格式错误的响应。Claude Opus 4 也很强，为 97.3%。GPT-5 high 较低，为 91.6%，整次运行中有 22 个格式错误响应（Aider）。

这听起来像是一个很小的实现细节，直到你在真实代码库里运行 agent。糟糕的编辑格式意味着浪费轮次、补丁应用失败，或者需要人工来拯救工具。如果你的工作流是“模型提出 diff、CI 检查、agent 迭代”，格式可靠性就是智能的一部分。

不过，GPT-5 较低的格式分数并没有阻止它获胜。这说明两件事。第一，尽管格式错误尝试更多，它仍能恢复或产出足够多的正确编辑。第二，通过率终究是比规整程度更严苛的指标。格式完美但错误的补丁仍然是错的。

一个合理的解读是：当最难的部分是解决 bug 时，用 GPT-5。当你的流水线对严格 diff 格式高度敏感，并且可以接受已解决案例数小幅下降时，用 Gemini。

模型版本和日期陷阱

这个对比里有一个陷阱：这些是历史基准条目，并不是对 2026 年 6 月 17 日所有当前生产端点的声明。

Gemini 2.5 Pro Preview 06-05 于 2025 年 6 月 5 日发布，带有 adaptive thinking；Google 后来在 2025 年 6 月 17 日发布了稳定版 gemini-2.5-pro，其 changelog 表示旧的 preview ID 后来在模型生命周期中被关闭或重定向（Google AI changelog）。Claude Opus 4 于 2025 年 5 月 22 日发布，而 Anthropic 的价格文档现在将 Claude Opus 4 标记为除 Vertex AI 外已退役（Anthropic Docs）。GPT-5 更晚发布，于 2025 年 8 月 7 日发布，OpenAI 的 API 文章列出 gpt-5、gpt-5-mini 和 gpt-5-nano 是发布时的 API 尺寸（OpenAI）。

所以，公平的对比是：“这些具名模型在 Aider 记录的运行中表现如何？”而不是：“今天哪个厂商的最新模型家族最好？”

这种区别对采购和工程决策都很重要。如果你的团队今天要选择一个编程模型，请在自己的技术栈上重新跑一个小型内部评测。纳入你的代码库规模、测试延迟、偏好的编辑格式，以及实际的重试策略。

一个最小化的 harness 可以既枯燥又有用：

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

然后衡量已解决工单、补丁应用失败次数、CI 通过次数、墙钟时间，以及每个合并修复的美元成本。

我会选择什么

如果必须从这个 Aider 快照中为编程 agent 选择一个模型，我会从 GPT-5 high 开始。它拥有最高通过率、三者中最低的运行成本，以及最佳的每个已解决案例成本。91.6% 的正确编辑格式是个瑕疵，但不足以抹掉 88.0% 的解决率优势。

Gemini 2.5 Pro 是强有力的第二选择。它 83.1% 的通过率足够接近，采用严格补丁格式自动化的团队应该认真考虑它。99.6% 的正确编辑格式率非常出色。缺点是这次运行中的成本：$49.88 价格不低，却比 GPT-5 少解决 11 个案例。

Claude Opus 4 在这里很难推销。Anthropic 将 Opus 4 定位为严肃的编程和 agent 模型，而且它在发布时的其他编程基准上表现很强，包括 Anthropic 发布文章中关于 SWE-bench 和 Terminal-bench 的说法（Anthropic）。但在 Aider Polyglot 上，这次特定的 Opus 4 运行既更弱又更贵。除非你的内部工作负载显示出 Claude 特有的优势，例如代码库品味、长上下文协作，或更少的破坏性编辑，否则 Aider 数据并不能证明在这项任务上选择 Opus 4 而不是 GPT-5 或 Gemini 是合理的。

实用规则是：不要因为“最佳编程模型”这样的品牌宣称而购买。购买每美元通过的测试数，并把编辑可靠性作为护栏。

想亲手试用这些模型的读者，可以通过 onehop 使用 OpenAI 兼容 API 调用它们，只需更改一个 base_url。它比第一方更便宜，新账号包含 $10 免费额度，并且无需银行卡：在 onehop 上调用 Claude 和其他模型，或注册领取 $10 免费额度。

GPT-5、Gemini 2.5 Pro 与 Claude Opus 4 在 Aider Polyglot 编程基准上的对比

计分板上有一个明确赢家

原始结果：通过率、成本、格式可靠性

为什么成本差距这么大

编辑格式：Gemini 是最规整的操作者

模型版本和日期陷阱

我会选择什么

相关阅读

GPT-5.6 Sol、Claude Fable 5 与 Gemini 3.1 Pro 在 SWE-Bench Pro 上的对比

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6：Terminal-Bench 2.0 对比

通过 DashScope 兼容模式用 OpenAI SDK 调用 Qwen3.7 Plus