전체 글로 돌아가기
벤치마크

Aider Polyglot 코딩에서 GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4

2026년 6월 17일 · 14분 읽기 · Claude / GPT / Gemini

크림색 배경의 편집 일러스트. 세 개의 추상적인 코딩 모델 카드가 다국어 테스트 그리드를 가로질러 경주하며 te

점수판에는 확실한 승자가 있다

GPT-5 high는 Aider Polyglot에서 88.0%를 기록했다. 225개 중 198개를 해결한 것이며, 리더보드의 작은 흔들림 수준이 아니다. 같은 벤치마크에서 Gemini 2.5 Pro Preview 06-05 with 32k thinking은 83.1%, Claude Opus 4 with 32k thinking은 72.0%를 기록했다고 Aider의 공식 Polyglot 리더보드는 밝힌다(Aider).

이 격차가 중요한 이유는 Aider Polyglot이 장난감 같은 “피보나치 함수 작성” 테스트가 아니기 때문이다. Aider는 이를 C++, Go, Java, JavaScript, Python, Rust 전반의 225개 Exercism 코딩 문제라고 설명한다(Aider). 모델은 코드를 수정하고, 유효한 diff를 생성하며, 테스트를 통과시켜야 한다. 이는 단발성 객관식 벤치마크보다 에이전트형 코딩의 일상적인 작업에 훨씬 더 가깝다.

핵심은 이렇다. GPT-5는 순수 통과율과 성공한 수정당 비용에서 승리한다. Gemini는 정확도에서 근접하며 출력 형식 준수는 훨씬 뛰어나다. Claude Opus 4는 Anthropic이 2025년 5월 최고 수준의 코딩 모델로 출시했음에도, 이 특정 벤치마크에서는 비싸고 뒤처져 보인다(Anthropic).

Aider Polyglot 통과율을 비교한 가로 막대 차트. GPT-5 high는 88.0%, Gemini 2.5 Pro Preview 06-05 32k thinki

원시 결과: 통과율, 비용, 형식 신뢰성

간단히 보면 다음과 같다. 이는 벤더의 마케팅 수치가 아니라 Aider 실행 결과다.

Model Aider 실행 날짜 통과율 해결 / 225 실행당 비용 해결 사례당 비용 올바른 수정 형식 수정 형식
GPT-5 high 2025-08-23 88.0% 198 $29.08 $0.147 91.6% diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83.1% 187 $49.88 $0.267 99.6% diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72.0% 162 $65.75 $0.406 97.3% diff

통과율 차이는 단순하다.

  • GPT-5는 Gemini를 4.9%포인트, 즉 해결 과제 11개 차이로 앞선다.
  • GPT-5는 Claude Opus 4를 16.0%포인트, 즉 해결 과제 36개 차이로 앞선다.
  • Gemini는 Claude Opus 4를 11.1%포인트, 즉 해결 과제 25개 차이로 앞선다.

비용 차이는 더 뚜렷하다. GPT-5의 실행 비용은 Gemini보다 약 42% 낮고 Claude보다 56% 낮다. Claude는 실행당 GPT-5의 약 2.26배 비용이 들면서도 36개를 덜 해결한다.

Claude 입장에서는 이 부분이 불편하다. Opus 4는 단순히 뒤처지는 것이 아니라, 더 비싸면서 뒤처진다.

비용 격차가 이렇게 큰 이유

토큰 정가가 대부분을 설명한다.

OpenAI는 GPT-5 API 모델 제품군을 출시하면서 GPT-5 가격을 입력 토큰 100만 개당 $1.25, 출력 토큰 100만 개당 $10로 책정했다(OpenAI). Google의 현재 Gemini 2.5 Pro 표준 가격도 200k 토큰 이하 프롬프트에 대해 입력 100만 토큰당 $1.25, 출력 100만 토큰당 $10이며, 200k를 초과하면 더 높은 요율이 적용된다(Google AI). Anthropic의 Claude Opus 4는 입력 100만 토큰당 $15, 출력 100만 토큰당 $75로 책정되었고, Anthropic의 현재 가격 페이지는 여전히 해당 과거 요율을 표시하면서도 Claude Opus 4를 Vertex AI를 제외하고 retired로 표기하고 있다(Anthropic Docs).

Aider의 토큰 사용량도 이 설명과 맞아떨어진다. Gemini 실행은 약 2.72M개의 프롬프트 토큰과 4.65M개의 completion 토큰을 사용했으며, 이는 $1.25/$10 가격 기준으로 보고된 실행 비용 $49.88과 거의 정확히 일치한다. Claude 실행은 completion 토큰을 약 363k개로 더 적게 사용했지만, Opus 4의 출력 가격 $75/M 때문에 실행 비용이 여전히 $65.75까지 올라갔다.

GPT-5는 흥미로운 사례다. 약 2.68M개의 프롬프트 토큰과 2.62M개의 completion 토큰을 사용했다. Gemini보다 약 2.0M개 적은 completion 토큰을 내보내면서도 더 많은 사례를 해결했다. OpenAI 역시 GPT-5가 Aider Polyglot에서 88%를 기록했다고 밝혔고, 개발자 출시 글에서 이를 새로운 기록이라고 설명했다(OpenAI).

개발자가 주목해야 할 부분은 이것이다. 벤치마크 비용은 단순한 정가가 아니다. 정가에 모델이 생각하고, 재시도하고, 설명하고, 큰 diff를 내보내는 경향을 곱한 값이다.

x축은 Aider 실행당 비용, y축은 통과율인 산점도. GPT-5 high는 좌상단의 $29.08 및 88.0%, Gemini 2

수정 형식: Gemini가 가장 깔끔한 작업자다

GPT-5는 벤치마크에서 이기지만, 형식 준수 항목에서는 Gemini가 이긴다.

Aider는 Gemini 2.5 Pro Preview 06-05의 올바른 수정 형식 비율을 99.6%로 보고하며, 잘못된 응답은 단 하나뿐이었다. Claude Opus 4도 97.3%로 강하다. GPT-5 high는 91.6%로 더 낮고, 실행 전체에서 잘못된 응답이 22개 있었다(Aider).

실제 저장소에서 에이전트를 돌리기 전까지는 이것이 작은 구현 세부사항처럼 들릴 수 있다. 잘못된 수정 형식은 턴 낭비, 패치 적용 실패, 또는 사람이 도구를 구조해야 하는 상황을 뜻한다. 워크플로가 “모델이 diff를 제안하고, CI가 확인하며, 에이전트가 반복한다”라면 형식 신뢰성도 지능의 일부다.

그럼에도 GPT-5의 낮은 형식 점수는 승리를 막지 못했다. 이는 두 가지를 말해준다. 첫째, GPT-5는 잘못된 시도가 더 많아도 회복하거나 충분히 올바른 수정을 만들어낼 수 있다. 둘째, 통과율은 결국 깔끔함보다 더 엄격한 지표다. 완벽하게 형식이 맞는 잘못된 패치는 여전히 잘못된 패치다.

합리적인 해석은 이렇다. 가장 어려운 부분이 버그를 해결하는 것이라면 GPT-5를 쓰라. 파이프라인이 엄격한 diff 형식에 매우 민감하고 해결 사례가 조금 줄어드는 것을 감수할 수 있다면 Gemini를 쓰라.

모델 버전과 날짜 함정

이 비교에는 한 가지 함정이 있다. 이는 과거 벤치마크 항목이지, 2026년 6월 17일 현재 모든 프로덕션 엔드포인트에 대한 진술이 아니다.

Gemini 2.5 Pro Preview 06-05는 adaptive thinking과 함께 2025년 6월 5일 출시되었다. Google은 이후 2025년 6월 17일 안정 버전 gemini-2.5-pro를 출시했으며, 변경 로그에 따르면 오래된 preview ID는 이후 모델 수명 주기에 따라 종료되거나 리디렉션되었다(Google AI changelog). Claude Opus 4는 2025년 5월 22일 출시되었고, Anthropic의 가격 문서는 현재 Claude Opus 4를 Vertex AI를 제외하고 retired로 표시한다(Anthropic Docs). GPT-5는 그보다 늦은 2025년 8월 7일 출시되었으며, OpenAI의 API 글은 출시 시점의 API 크기로 gpt-5, gpt-5-mini, gpt-5-nano를 나열한다(OpenAI).

따라서 공정한 비교는 “이 명명된 모델들이 Aider에 기록된 실행에서 어떻게 수행했는가?”이다. “오늘 어느 벤더의 최신 모델 제품군이 가장 좋은가?”가 아니다.

이 구분은 조달과 엔지니어링 의사결정에 중요하다. 팀이 오늘 코딩 모델을 선택한다면, 자체 스택에서 작은 내부 평가를 다시 실행하라. 저장소 크기, 테스트 지연 시간, 선호하는 수정 형식, 실제 재시도 정책을 포함하라.

최소한의 하네스는 지루하지만 유용할 수 있다.

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

그런 다음 해결된 티켓, 실패한 패치 적용, CI 통과, 경과 시간, 병합된 수정당 비용을 측정하라.

내가 선택한다면

이 Aider 스냅샷에서 코딩 에이전트용 모델 하나를 골라야 한다면, 나는 GPT-5 high부터 시작하겠다. 세 모델 중 통과율이 가장 높고, 실행 비용이 가장 낮으며, 해결 사례당 비용도 가장 좋다. 91.6%의 올바른 수정 형식은 흠이지만, 88.0%의 해결률을 지울 정도는 아니다.

Gemini 2.5 Pro는 강력한 차선책이다. 83.1%의 통과율은 엄격한 패치 형식 자동화를 가진 팀이 진지하게 고려할 만큼 충분히 가깝다. 99.6%의 올바른 수정 형식 비율은 훌륭하다. 단점은 이 실행에서의 비용이다. $49.88은 GPT-5보다 11개 적게 해결하는 데 지불하기에는 큰 금액이다.

Claude Opus 4는 여기서는 설득하기 어렵다. Anthropic은 Opus 4를 진지한 코딩 및 에이전트 모델로 포지셔닝했고, 출시 당시 Anthropic의 릴리스 글에서 주장한 SWE-bench 및 Terminal-bench를 포함해 다른 코딩 벤치마크에서는 강한 성과를 냈다(Anthropic). 하지만 Aider Polyglot에서 이 특정 Opus 4 실행은 더 약하면서 더 비싸다. 코드베이스 취향, 긴 컨텍스트 협업, 더 적은 파괴적 수정 같은 Claude만의 강점이 내부 워크로드에서 나타나지 않는 한, Aider 데이터는 이 작업에 Opus 4를 GPT-5나 Gemini보다 선택할 근거를 제공하지 않는다.

실용적인 규칙은 이렇다. “최고의 코딩 모델”이라는 브랜드 주장을 사지 말라. 수정 신뢰성을 가드레일로 두고, 달러당 통과한 테스트를 사라.

이 모델들을 직접 써보고 싶은 독자는 onehop에서 base_url 하나만 바꿔 OpenAI 호환 API로 호출할 수 있다. 퍼스트파티보다 저렴하고, 신규 계정에 $10 무료 크레딧을 제공하며, 카드가 필요 없다. onehop에서 Claude 및 기타 모델 호출하기 또는 $10 무료 크레딧으로 가입하기.