Kembali ke semua artikel
Benchmark

Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6 di Terminal-Bench 2.0

16 Juni 2026 · 23 menit baca · Claude / GPT / Gemini

Sampul editorial berlatar krem yang menampilkan tiga jendela terminal abstrak sebagai kartu arang bertumpuk, masing-masing terhubung ke sebuah

Angka yang penting: 68,5%

Kartu model Gemini 3.1 Pro dari Google DeepMind menempatkan Gemini 3.1 Pro di 68,5% pada Terminal-Bench 2.0 menggunakan harness Terminus-2. Dalam tabel yang sama, Claude Opus 4.6 mencetak 65,4%, GPT-5.3-Codex mencetak 64,7%, dan GPT-5.2 mencetak 54,0% pada baris harness yang sama (Google DeepMind).

Itu adalah baris perbandingan paling bersih dan setara dalam materi publik saat ini. Artinya: jika Anda menjalankan model-model ini melalui setup Terminus-2 yang sama seperti dilaporkan, Gemini 3.1 Pro unggul, Claude Opus 4.6 dekat, GPT-5.3-Codex pada dasarnya berada di rentang yang sama, dan GPT-5.2 tertinggal cukup jauh.

Namun ada jebakan di sini. Terminal-Bench bukan sekadar benchmark model. Ini adalah benchmark model plus agen plus harness.

Halaman Terminal-Bench 2.0 dari Epoch AI menggambarkan benchmark ini sebagai tugas-tugas di mana agen harus beroperasi di dalam terminal sungguhan: memahami filesystem, menggunakan program yang terinstal, bernalar tentang proses yang berjalan, dan menyelesaikan tugas tanpa diberi tahu setiap perintah. Halaman itu juga mengatakan skor dilaporkan untuk kombinasi model-agen karena agen dapat mengubah performa secara material (Epoch AI). Satu kalimat itu seharusnya mengubah cara Anda membaca setiap leaderboard.

Diagram batang horizontal berlatar krem yang membandingkan skor Terminal-Bench 2.0 Terminus-2: Gemini 3.1 Pro 68,5, Claude Opu

Tabel benchmark yang seharusnya benar-benar dipakai developer

Berikut potongan yang berguna, dibatasi pada angka-angka yang bisa saya verifikasi dari sumber primer.

Model Skor Terminal-Bench 2.0 Konteks harness / sumber Harga API, jika relevan
Gemini 3.1 Pro 68,5% Harness Terminus-2 di kartu model Google $2/$12 per 1 juta token input/output untuk prompt ≤200k; $4/$18 di atas 200k (Google AI)
Claude Opus 4.6 65,4% Harness Terminus-2 di kartu model Google; leaderboard publik sesuai catatan metodologi Google $5/$25 per 1 juta token input/output (Anthropic)
GPT-5.3-Codex 64,7% Harness Terminus-2 di kartu model Google Run penyedia dari OpenAI melaporkan 77,3% menggunakan Codex CLI, bukan harness yang sama (OpenAI)
GPT-5.2 54,0% Harness Terminus-2 di kartu model Google $1.75/$14 per 1 juta token input/output (OpenAI)

Urutan di bawah Terminus-2 cukup jelas: Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

Poin engineering yang lebih besar tidak serapi itu. PDF metodologi Google sendiri mengatakan skor Gemini dihitung sendiri, sementara angka model non-Gemini umumnya dilaporkan oleh penyedia kecuali dinyatakan lain. Khusus untuk Terminal-Bench 2.0, dokumen itu mengatakan Gemini 3.1 Pro dihitung sendiri, model lain berasal dari leaderboard publik, dan hasil dilaporkan baik untuk harness default Terminus-2 maupun untuk harness terbaik lain yang dilaporkan sendiri jika berlaku (PDF metodologi Google DeepMind).

Jadi pembacaan yang adil bukan “Gemini menghancurkan semuanya.” Melainkan: Gemini memimpin perbandingan Terminus-2 bersama dengan selisih 3,1 poin persentase atas Claude dan 3,8 poin atas GPT-5.3-Codex. GPT-5.2 jelas tertinggal dalam setup ini.

Mengapa GPT-5.3-Codex punya dua cerita berbeda

Baris yang paling membingungkan adalah GPT-5.3-Codex.

Kartu model Google memberinya 64,7% pada harness Terminus-2. Satu baris di bawahnya, kartu yang sama mencantumkan angka “harness terbaik lain yang dilaporkan sendiri”: GPT-5.2 di 62,2% menggunakan Codex, dan GPT-5.3-Codex di 77,3% menggunakan Codex (Google DeepMind). Pengumuman GPT-5.3-Codex dari OpenAI sendiri juga melaporkan 77,3% pada Terminal-Bench 2.0, dengan upaya reasoning xhigh, dan secara eksplisit membingkai model ini sebagai model agen coding untuk Codex (OpenAI).

Keduanya bisa benar.

Agen coding CLI bukan completion chat stateless. Harness menentukan bagaimana file diekspos, bagaimana perintah dijalankan, bagaimana patch diterapkan, bagaimana state diringkas, seberapa sering model bisa pulih dari jalur yang salah, dan kadang bagaimana upaya reasoning dipilih. Jika Anda menggunakan Codex CLI, angka 77,3% dari OpenAI relevan. Jika Anda membandingkan model di dalam harness agen pihak ketiga yang sama, angka Terminus-2 64,7% adalah perbandingan yang lebih bersih.

Perbedaan itu langsung memetakan ke penggunaan nyata:

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

Jika tim Anda membangun agen CLI sendiri, jangan menyalin skor harness terbaik dari penyedia ke spreadsheet lalu menyebutnya kualitas model. Perlakukan itu sebagai kualitas sistem: model, tool loop, memori, kebijakan retry, mekanika patch, sandbox, dan kontrak prompt.

Diagram alur yang menunjukkan “tugas developer” masuk ke harness agen, terpecah menjadi model, tool terminal, state filesystem,

Apa yang diukur Terminal-Bench 2.0 dengan lebih baik daripada SWE-Bench

SWE-Bench masih berguna, tetapi Terminal-Bench menangkap mode kegagalan yang berbeda. Sebuah model bisa menghasilkan patch yang tampak masuk akal dan tetap buruk saat harus hidup di dalam shell.

Tugas Terminal-Bench mencakup hal-hal seperti membangun kernel Linux di QEMU, mengonfigurasi server web Git, memecahkan hash 7z untuk secret yang diberikan, membuat sertifikat OpenSSL, dan membentuk ulang file data. Situs Terminal-Bench menggambarkan versi 2.0 sebagai 89 tugas berkualitas tinggi di bidang software engineering, machine learning, keamanan, data science, dan lainnya (Terminal-Bench).

Itu penting karena agen CLI gagal dengan cara-cara yang membosankan tapi mahal:

  • Mereka lupa sedang berada di mana dalam filesystem.
  • Mereka menjalankan perintah, mengabaikan stderr, lalu menambal file yang salah.
  • Mereka lolos visible test tetapi melewatkan invariant tersembunyi.
  • Mereka menghabiskan token untuk eksplorasi alih-alih menyusun rencana.
  • Mereka macet setelah satu instalasi gagal atau satu test flaky.

Pada tugas-tugas tersebut, skor Terminus-2 Gemini 3.1 Pro sebesar 68,5% mengesankan karena menunjukkan perilaku command-loop yang kuat, bukan sekadar sintesis kode. Claude Opus 4.6 di 65,4% cukup dekat sehingga saya tidak akan memigrasikan workflow Claude Code yang sudah matang hanya karena delta benchmark. GPT-5.2 di 54,0% adalah yang akan saya hindari untuk otomasi terminal berat kecuali biaya menjadi batasan dominan atau Anda memiliki harness yang sangat kuat di sekelilingnya.

Memilih model untuk agen coding CLI

Peringkat praktis saya bergantung pada apa yang Anda beli.

Jika Anda menginginkan skor terminal shared-harness terkuat, mulai dengan Gemini 3.1 Pro. Model ini memimpin baris perbandingan terverifikasi dan lebih murah daripada Claude Opus 4.6 pada harga per-token standar di bawah 200k token prompt. Catatannya: untuk prompt repo besar di atas 200k, harga yang dipublikasikan Google naik dari $2/$12 menjadi $4/$18 per 1 juta token input/output, jadi run agen konteks panjang membutuhkan anggaran dan disiplin cache (Google AI).

Jika Anda sudah menjalankan workflow yang banyak memakai Claude, Claude Opus 4.6 tetap pilihan kuat. Anthropic merilis Opus 4.6 pada 5 Februari 2026, dengan coding yang lebih kuat, performa tugas agentik yang lebih panjang, dan jendela konteks 1 juta token dalam beta untuk platform developer (Anthropic). Skor Terminus-2-nya 65,4% dekat dengan Gemini. Harganya lebih tinggi: input $5 dan output $25 per juta token pada harga standar.

Jika Anda menginginkan angka terminal spesifik Codex terbaik, GPT-5.3-Codex layak dievaluasi terpisah. Skor Terminal-Bench 2.0 sebesar 77,3% yang dilaporkan penyedia terkait dengan setup Codex dari OpenAI, sementara baris Terminus-2 bersama adalah 64,7%. Itu bukan kontradiksi. Itu label peringatan.

Jika Anda mempertimbangkan GPT-5.2, kasusnya adalah biaya dan kapabilitas umum, bukan agensi terminal puncak. OpenAI mematok harga GPT-5.2 sebesar $1.75/$14 per juta token input/output dan mengatakan model ini mendukung upaya reasoning xhigh di API (OpenAI). Namun pada baris Terminal-Bench 2.0 bersama, 54,0% adalah jarak yang besar.

Kesimpulan

Untuk agen coding berbasis terminal, saya akan menyusun shortlist model seperti ini: Gemini 3.1 Pro untuk performa Terminal-Bench 2.0 shared-harness terbaik, Claude Opus 4.6 untuk tim yang menghargai reliabilitas coding konteks panjang dan sudah memercayai workflow Claude, GPT-5.3-Codex ketika runtime targetnya adalah Codex itu sendiri, dan GPT-5.2 hanya ketika harga atau ketersediaan API lebih penting daripada tingkat keberhasilan terminal.

Pelajaran utamanya adalah metodologis. Skor Terminal-Bench tidak pernah sekadar “modelnya.” Bagi developer yang membangun agen CLI, harness adalah bagian dari produk. Lacak kedua angka: skor shared-harness yang memberi tahu portabilitas mentah, dan skor provider-harness yang memberi tahu apa yang bisa dilakukan full native stack.

Pembaca yang ingin mencoba model-model ini langsung dapat memanggil Claude dan model lain di onehop dengan API kompatibel OpenAI: ubah satu base_url, pertahankan sebagian besar client tetap sama, dan bandingkan biaya dengan rute pihak pertama. Akun baru mendapatkan kredit gratis $10 tanpa perlu kartu: panggil Claude dan model lain di onehop, atau daftar untuk kredit gratis $10.