返回全部文章
评测

GPT-5、Gemini 2.5 Pro 与 Claude Opus 4 在 Aider Polyglot 编程基准上的对比

2026年6月17日 · 13 分钟阅读 · Claude / GPT / Gemini

奶油色背景的编辑插画,三张抽象编程模型卡片在多语言测试网格上竞速,并带有 te

计分板上有一个明确赢家

GPT-5 high 在 Aider Polyglot 上达到 88.0%。这意味着 225 个案例中解决了 198 个,而且这并不是排行榜上的微小波动。根据 Aider 官方 Polyglot 排行榜,在同一基准上,带 32k thinking 的 Gemini 2.5 Pro Preview 06-05 达到 83.1%,而带 32k thinking 的 Claude Opus 4 达到 72.0%(Aider)。

这个差距很重要,因为 Aider Polyglot 不是那种玩具级的“写一个 Fibonacci 函数”测试。Aider 将其描述为覆盖 C++、Go、Java、JavaScript、Python 和 Rust 的 225 道 Exercism 编程练习(Aider)。模型必须编辑代码、生成有效 diff,并让测试通过。这比一次性多选题基准更接近 agentic coding 的日常工作。

结论是:GPT-5 在原始通过率和每次成功修复成本上胜出。Gemini 在正确性上很接近,而且在输出格式纪律方面好得多。Claude Opus 4 在这个特定基准上显得昂贵且落后,尽管 Anthropic 在 2025 年 5 月发布它时将其定位为顶级编程模型(Anthropic)。

横向条形图,对比 Aider Polyglot 通过率:GPT-5 high 为 88.0%,Gemini 2.5 Pro Preview 06-05 32k thinki

原始结果:通过率、成本、格式可靠性

下面是紧凑视图。这些是 Aider 运行结果,不是厂商营销数字。

Model Aider 运行日期 通过率 已解决 / 225 每次运行成本 每个已解决案例成本 正确编辑格式 编辑格式
GPT-5 high 2025-08-23 88.0% 198 $29.08 $0.147 91.6% diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83.1% 187 $49.88 $0.267 99.6% diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72.0% 162 $65.75 $0.406 97.3% diff

通过率差值很直观:

  • GPT-5 领先 Gemini 4.9 个百分点,也就是多解决 11 个任务。
  • GPT-5 领先 Claude Opus 4 16.0 个百分点,也就是多解决 36 个任务。
  • Gemini 领先 Claude Opus 4 11.1 个百分点,也就是多解决 25 个任务。

成本差异更明显。GPT-5 的运行成本比 Gemini 低约 42%,比 Claude 低约 56%。Claude 每次运行成本约为 GPT-5 的 2.26 倍,却少解决 36 个案例。

这就是 Claude 在这里让人不太舒服的地方。Opus 4 不只是落后;它是在成本更高的同时落后。

为什么成本差距这么大

Token 标价解释了其中大部分原因。

OpenAI 在发布 API 模型家族时,将 GPT-5 定价为每百万输入 token $1.25、每百万输出 token $10(OpenAI)。Google 当前 Gemini 2.5 Pro 的标准价格同样是对于不超过 200k token 的 prompt,每百万输入 token $1.25、每百万输出 token $10;超过 200k 则采用更高费率(Google AI)。Anthropic 的 Claude Opus 4 定价为每百万输入 token $15、每百万输出 token $75,而 Anthropic 当前的价格页面现在将 Claude Opus 4 标记为除 Vertex AI 外已退役,同时仍列出这些历史费率(Anthropic Docs)。

Aider 的 token 使用量也符合这个解释。Gemini 运行使用了约 2.72M prompt token 和 4.65M completion token,几乎正好对应按 $1.25/$10 计价得出的 $49.88 报告运行成本。Claude 运行使用的 completion token 更少,约 363k,但 Opus 4 的 $75/M 输出价格仍将该次运行推高到 $65.75。

GPT-5 是有意思的案例。它使用了约 2.68M prompt token 和 2.62M completion token。它比 Gemini 解决了更多案例,同时少输出约 2.0M completion token。OpenAI 还表示 GPT-5 在 Aider Polyglot 上得分 88%,并在其面向开发者的发布文章中将其称为新纪录(OpenAI)。

对开发者来说,真正需要关注的是:基准成本不只是标价。它是标价乘以模型思考、重试、解释以及输出大型 diff 的倾向。

散点图,x 轴为每次 Aider 运行成本,y 轴为通过率;GPT-5 high 位于左上角,$29.08 和 88.0%,Gemini 2

编辑格式:Gemini 是最规整的操作者

GPT-5 赢得了基准,但 Gemini 赢得了格式纪律这一列。

Aider 报告 Gemini 2.5 Pro Preview 06-05 的正确编辑格式为 99.6%,只有一个格式错误的响应。Claude Opus 4 也很强,为 97.3%。GPT-5 high 较低,为 91.6%,整次运行中有 22 个格式错误响应(Aider)。

这听起来像是一个很小的实现细节,直到你在真实代码库里运行 agent。糟糕的编辑格式意味着浪费轮次、补丁应用失败,或者需要人工来拯救工具。如果你的工作流是“模型提出 diff、CI 检查、agent 迭代”,格式可靠性就是智能的一部分。

不过,GPT-5 较低的格式分数并没有阻止它获胜。这说明两件事。第一,尽管格式错误尝试更多,它仍能恢复或产出足够多的正确编辑。第二,通过率终究是比规整程度更严苛的指标。格式完美但错误的补丁仍然是错的。

一个合理的解读是:当最难的部分是解决 bug 时,用 GPT-5。当你的流水线对严格 diff 格式高度敏感,并且可以接受已解决案例数小幅下降时,用 Gemini。

模型版本和日期陷阱

这个对比里有一个陷阱:这些是历史基准条目,并不是对 2026 年 6 月 17 日所有当前生产端点的声明。

Gemini 2.5 Pro Preview 06-05 于 2025 年 6 月 5 日发布,带有 adaptive thinking;Google 后来在 2025 年 6 月 17 日发布了稳定版 gemini-2.5-pro,其 changelog 表示旧的 preview ID 后来在模型生命周期中被关闭或重定向(Google AI changelog)。Claude Opus 4 于 2025 年 5 月 22 日发布,而 Anthropic 的价格文档现在将 Claude Opus 4 标记为除 Vertex AI 外已退役(Anthropic Docs)。GPT-5 更晚发布,于 2025 年 8 月 7 日发布,OpenAI 的 API 文章列出 gpt-5gpt-5-minigpt-5-nano 是发布时的 API 尺寸(OpenAI)。

所以,公平的对比是:“这些具名模型在 Aider 记录的运行中表现如何?”而不是:“今天哪个厂商的最新模型家族最好?”

这种区别对采购和工程决策都很重要。如果你的团队今天要选择一个编程模型,请在自己的技术栈上重新跑一个小型内部评测。纳入你的代码库规模、测试延迟、偏好的编辑格式,以及实际的重试策略。

一个最小化的 harness 可以既枯燥又有用:

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

然后衡量已解决工单、补丁应用失败次数、CI 通过次数、墙钟时间,以及每个合并修复的美元成本。

我会选择什么

如果必须从这个 Aider 快照中为编程 agent 选择一个模型,我会从 GPT-5 high 开始。它拥有最高通过率、三者中最低的运行成本,以及最佳的每个已解决案例成本。91.6% 的正确编辑格式是个瑕疵,但不足以抹掉 88.0% 的解决率优势。

Gemini 2.5 Pro 是强有力的第二选择。它 83.1% 的通过率足够接近,采用严格补丁格式自动化的团队应该认真考虑它。99.6% 的正确编辑格式率非常出色。缺点是这次运行中的成本:$49.88 价格不低,却比 GPT-5 少解决 11 个案例。

Claude Opus 4 在这里很难推销。Anthropic 将 Opus 4 定位为严肃的编程和 agent 模型,而且它在发布时的其他编程基准上表现很强,包括 Anthropic 发布文章中关于 SWE-bench 和 Terminal-bench 的说法(Anthropic)。但在 Aider Polyglot 上,这次特定的 Opus 4 运行既更弱又更贵。除非你的内部工作负载显示出 Claude 特有的优势,例如代码库品味、长上下文协作,或更少的破坏性编辑,否则 Aider 数据并不能证明在这项任务上选择 Opus 4 而不是 GPT-5 或 Gemini 是合理的。

实用规则是:不要因为“最佳编程模型”这样的品牌宣称而购买。购买每美元通过的测试数,并把编辑可靠性作为护栏。

想亲手试用这些模型的读者,可以通过 onehop 使用 OpenAI 兼容 API 调用它们,只需更改一个 base_url。它比第一方更便宜,新账号包含 $10 免费额度,并且无需银行卡:在 onehop 上调用 Claude 和其他模型,或注册领取 $10 免费额度