Kembali ke semua artikel
Benchmark

GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4 pada Pengodean Aider Polyglot

17 Juni 2026 · 22 menit baca · Claude / GPT / Gemini

Ilustrasi editorial berlatar krem tentang tiga kartu model pengodean abstrak yang berpacu melintasi grid uji polyglot, dengan te

Papan Skor Punya Pemenang yang Jelas

GPT-5 high berada di 88,0% pada Aider Polyglot. Itu berarti 198 kasus terselesaikan dari 225, dan ini bukan sekadar goyangan kecil di leaderboard. Pada benchmark yang sama, Gemini 2.5 Pro Preview 06-05 dengan 32k thinking mencapai 83,1%, sementara Claude Opus 4 dengan 32k thinking mencapai 72,0%, menurut leaderboard Polyglot resmi Aider (Aider).

Selisih itu penting karena Aider Polyglot bukan tes mainan “tulis fungsi Fibonacci”. Aider mendeskripsikannya sebagai 225 latihan coding Exercism di C++, Go, Java, JavaScript, Python, dan Rust (Aider). Model harus mengedit kode, menghasilkan diff yang valid, dan membuat tes lolos. Ini jauh lebih dekat dengan rutinitas harian agentic coding dibanding benchmark pilihan ganda sekali jawab.

Intinya: GPT-5 menang dalam pass rate mentah dan biaya per perbaikan yang berhasil. Gemini dekat dalam hal kebenaran dan jauh lebih baik dalam disiplin format output. Claude Opus 4 tampak mahal dan tertinggal pada benchmark khusus ini, meskipun Anthropic meluncurkannya sebagai model coding teratas pada Mei 2025 (Anthropic).

Diagram batang horizontal yang membandingkan pass rate Aider Polyglot untuk GPT-5 high pada 88,0%, Gemini 2.5 Pro Preview 06-05 32k thinki

Hasil Mentah: Pass Rate, Biaya, Keandalan Format

Berikut tampilan ringkasnya. Ini adalah hasil run Aider, bukan angka pemasaran vendor.

Model Tanggal run Aider Pass rate Terselesaikan / 225 Biaya per run Biaya per kasus terselesaikan Format edit benar Format edit
GPT-5 high 2025-08-23 88.0% 198 $29.08 $0.147 91.6% diff
Gemini 2.5 Pro Preview 06-05, 32k thinking 2025-06-06 83.1% 187 $49.88 $0.267 99.6% diff-fenced
Claude Opus 4 20250514, 32k thinking 2025-05-25 72.0% 162 $65.75 $0.406 97.3% diff

Delta pass-rate-nya sederhana:

  • GPT-5 mengalahkan Gemini sebesar 4,9 poin persentase, atau 11 tugas terselesaikan lebih banyak.
  • GPT-5 mengalahkan Claude Opus 4 sebesar 16,0 poin, atau 36 tugas terselesaikan lebih banyak.
  • Gemini mengalahkan Claude Opus 4 sebesar 11,1 poin, atau 25 tugas terselesaikan lebih banyak.

Delta biayanya lebih tajam. Biaya run GPT-5 sekitar 42% lebih rendah daripada Gemini dan 56% lebih rendah daripada Claude. Claude memakan biaya sekitar 2,26x GPT-5 per run sambil menyelesaikan 36 kasus lebih sedikit.

Itulah bagian yang tidak nyaman untuk Claude di sini. Opus 4 bukan sekadar tertinggal; ia tertinggal sambil memakan biaya lebih besar.

Mengapa Selisih Biayanya Begitu Besar

Harga daftar token menjelaskan sebagian besarnya.

OpenAI menetapkan harga GPT-5 sebesar $1,25 per juta token input dan $10 per juta token output saat meluncurkan keluarga model API tersebut (OpenAI). Harga standar Gemini 2.5 Pro Google saat ini juga $1,25 input dan $10 output per juta token untuk prompt hingga 200k token, dengan tarif lebih tinggi di atas 200k (Google AI). Claude Opus 4 dari Anthropic dihargai $15 input dan $75 output per juta token, dan halaman harga Anthropic saat ini menandai Claude Opus 4 sebagai retired kecuali di Vertex AI sambil tetap mencantumkan tarif historis tersebut (Dokumentasi Anthropic).

Penggunaan token Aider sejalan dengan cerita itu. Run Gemini menggunakan sekitar 2,72 juta token prompt dan 4,65 juta token completion, yang hampir persis memetakan ke biaya run $49,88 yang dilaporkan pada harga $1,25/$10. Run Claude menggunakan token completion lebih sedikit, sekitar 363 ribu, tetapi harga output Opus 4 sebesar $75/M tetap mendorong biaya run menjadi $65,75.

GPT-5 adalah kasus yang menarik. Ia menggunakan sekitar 2,68 juta token prompt dan 2,62 juta token completion. Ia menyelesaikan lebih banyak kasus daripada Gemini sambil mengeluarkan sekitar 2,0 juta token completion lebih sedikit. OpenAI juga mengatakan GPT-5 mencetak 88% pada Aider Polyglot dan menyebutnya sebagai rekor baru dalam posting peluncuran developer mereka (OpenAI).

Bagi developer, inilah bagian yang perlu diperhatikan: biaya benchmark bukan hanya harga daftar. Itu adalah harga daftar dikalikan kecenderungan model untuk berpikir, mencoba ulang, menjelaskan, dan mengeluarkan diff besar.

Scatter plot dengan sumbu-x biaya per run Aider dan sumbu-y pass rate; GPT-5 high di kiri atas pada $29.08 dan 88.0%, Gemini 2

Format Edit: Gemini Operator Paling Rapi

GPT-5 memenangkan benchmark, tetapi Gemini memenangkan kolom disiplin format.

Aider melaporkan Gemini 2.5 Pro Preview 06-05 pada 99,6% format edit benar, dengan hanya satu respons malformed. Claude Opus 4 juga kuat di 97,3%. GPT-5 high lebih rendah di 91,6%, dengan 22 respons malformed sepanjang run (Aider).

Itu terdengar seperti detail implementasi kecil sampai Anda menjalankan agent di repo nyata. Format edit buruk berarti turn terbuang, aplikasi patch gagal, atau manusia harus menyelamatkan tool. Jika workflow Anda adalah “model mengusulkan diff, CI memeriksa, agent beriterasi,” keandalan format adalah bagian dari kecerdasan.

Namun, skor format GPT-5 yang lebih rendah tidak menghentikannya untuk menang. Itu memberi tahu kita dua hal. Pertama, ia bisa pulih atau menghasilkan cukup banyak edit benar meskipun ada lebih banyak upaya malformed. Kedua, pass rate pada akhirnya adalah metrik yang lebih keras daripada kerapian. Patch yang diformat sempurna tetapi salah tetap saja salah.

Pembacaan yang masuk akal: gunakan GPT-5 ketika bagian tersulitnya adalah menyelesaikan bug. Gunakan Gemini ketika pipeline Anda sangat sensitif terhadap format diff yang ketat dan Anda bisa menoleransi sedikit penurunan dalam jumlah kasus terselesaikan.

Versi Model dan Jebakan Tanggal

Ada satu jebakan dalam perbandingan ini: ini adalah entri benchmark historis, bukan pernyataan tentang setiap endpoint produksi saat ini pada 17 Juni 2026.

Gemini 2.5 Pro Preview 06-05 dirilis pada 5 Juni 2025, dengan adaptive thinking; Google kemudian merilis gemini-2.5-pro stabil pada 17 Juni 2025, dan changelog-nya mengatakan ID preview lama kemudian dimatikan atau dialihkan melalui siklus hidup model (changelog Google AI). Claude Opus 4 diluncurkan pada 22 Mei 2025, dan dokumentasi harga Anthropic sekarang menandai Claude Opus 4 sebagai retired kecuali di Vertex AI (Dokumentasi Anthropic). GPT-5 diluncurkan belakangan, pada 7 Agustus 2025, dan posting API OpenAI mencantumkan gpt-5, gpt-5-mini, dan gpt-5-nano sebagai ukuran API saat peluncuran (OpenAI).

Jadi perbandingan yang adil adalah: “Bagaimana performa model-model bernama ini dalam run yang direkam Aider?” Bukan: “Keluarga model terbaru vendor mana yang terbaik hari ini?”

Pembedaan itu penting untuk procurement dan keputusan engineering. Jika tim Anda memilih model coding hari ini, jalankan ulang eval internal kecil pada stack Anda sendiri. Sertakan ukuran repo Anda, latensi tes Anda, format edit pilihan Anda, dan kebijakan retry aktual Anda.

Harness minimal bisa membosankan sekaligus berguna:

aider --model openai/gpt-5 --reasoning-effort high
aider --model gemini/gemini-2.5-pro --thinking-tokens 32k
aider --model anthropic/claude-opus-4-20250514

Lalu ukur tiket terselesaikan, aplikasi patch yang gagal, CI yang lolos, wall time, dan dolar per fix yang di-merge.

Yang Akan Saya Pilih

Jika saya harus memilih satu model dari snapshot Aider ini untuk coding agent, saya akan mulai dengan GPT-5 high. Ia punya pass rate terbaik, biaya run terendah di antara ketiganya, dan biaya per kasus terselesaikan terbaik. Format edit benar 91,6% adalah noda, tetapi tidak cukup untuk menghapus solve rate 88,0%.

Gemini 2.5 Pro adalah pilihan kedua yang kuat. Pass rate 83,1%-nya cukup dekat sehingga tim dengan otomasi format patch yang ketat perlu menanggapinya serius. Tingkat format edit benar 99,6% sangat bagus. Kekurangannya adalah biaya dalam run ini: $49,88 adalah harga yang besar untuk 11 kasus terselesaikan lebih sedikit daripada GPT-5.

Claude Opus 4 sulit dijual di sini. Anthropic memosisikan Opus 4 sebagai model coding dan agent yang serius, dan ia menunjukkan hasil kuat pada benchmark coding lain saat peluncuran, termasuk klaim SWE-bench dan Terminal-bench dalam posting rilis Anthropic (Anthropic). Namun pada Aider Polyglot, run Opus 4 khusus ini lebih lemah sekaligus lebih mahal. Kecuali workload internal Anda menunjukkan kekuatan spesifik Claude seperti selera terhadap codebase, kolaborasi long-context, atau lebih sedikit edit destruktif, data Aider tidak membenarkan memilih Opus 4 dibanding GPT-5 atau Gemini untuk pekerjaan ini.

Aturan praktisnya: jangan membeli “model coding terbaik” sebagai klaim merek. Belilah tes yang lolos per dolar, dengan keandalan edit sebagai pagar pengaman.

Pembaca yang ingin mencoba model-model ini langsung bisa memanggilnya melalui onehop dengan API kompatibel OpenAI cukup dengan mengubah satu base_url. Ini lebih murah daripada first-party, mencakup kredit gratis $10 untuk akun baru, dan tidak memerlukan kartu: panggil Claude dan model lain di onehop, atau daftar untuk kredit gratis $10.