Terminal-Bench 2.0에서 Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6

중요한 숫자: 68.5%

Google DeepMind의 Gemini 3.1 Pro 모델 카드에 따르면 Gemini 3.1 Pro는 Terminus-2 하네스를 사용해 **Terminal-Bench 2.0에서 68.5%**를 기록했다. 같은 표에서 동일한 하네스 라인 기준 Claude Opus 4.6은 65.4%, GPT-5.3-Codex는 64.7%, GPT-5.2는 **54.0%**를 기록했다(Google DeepMind).

현재 공개 자료에서 가장 깔끔한 동등 비교 행은 이것이다. 의미는 이렇다. 보고된 동일 Terminus-2 설정으로 이 모델들을 실행하면 Gemini 3.1 Pro가 앞서고, Claude Opus 4.6이 근접하며, GPT-5.3-Codex도 사실상 같은 구간에 있고, GPT-5.2는 꽤 크게 뒤처진다.

하지만 여기에는 함정이 있다. Terminal-Bench는 단순한 모델 벤치마크가 아니다. 모델 + 에이전트 + 하네스 벤치마크다.

Epoch AI의 Terminal-Bench 2.0 페이지는 이 벤치마크를 에이전트가 실제 터미널 안에서 작업해야 하는 과제로 설명한다. 파일시스템을 이해하고, 설치된 프로그램을 사용하고, 실행 중인 프로세스를 추론하며, 모든 명령을 일일이 지시받지 않고 작업을 완료해야 한다. 또한 에이전트가 성능을 실질적으로 바꿀 수 있기 때문에 점수는 모델-에이전트 조합 단위로 보고된다고 말한다(Epoch AI). 이 한 문장만으로도 모든 리더보드를 읽는 방식이 달라져야 한다.

크림색 배경의 가로 막대 차트. Terminal-Bench 2.0 Terminus-2 점수 비교: Gemini 3.1 Pro 68.5, Claude Opu

개발자가 실제로 봐야 할 벤치마크 표

다음은 1차 출처에서 확인할 수 있었던 숫자만으로 추린 유용한 비교다.

Model	Terminal-Bench 2.0 score	Harness / source context	API price, if relevant
Gemini 3.1 Pro	68.5%	Google 모델 카드의 Terminus-2 하네스	프롬프트 ≤200k 기준 입력/출력 토큰 100만 개당 $2/$12; 200k 초과 시 $4/$18 (Google AI)
Claude Opus 4.6	65.4%	Google 모델 카드의 Terminus-2 하네스; Google 방법론 노트 기준 공개 리더보드	입력/출력 토큰 100만 개당 $5/$25 (Anthropic)
GPT-5.3-Codex	64.7%	Google 모델 카드의 Terminus-2 하네스	OpenAI의 제공자 실행은 동일 하네스가 아닌 Codex CLI 사용 기준 77.3%를 보고 (OpenAI)
GPT-5.2	54.0%	Google 모델 카드의 Terminus-2 하네스	입력/출력 토큰 100만 개당 $1.75/$14 (OpenAI)

Terminus-2 기준 순위는 명확하다. Gemini 3.1 Pro > Claude Opus 4.6 > GPT-5.3-Codex > GPT-5.2.

더 큰 엔지니어링 관점의 요점은 그렇게 단순하지 않다. Google의 자체 방법론 PDF는 Gemini 점수는 자체 계산이며, Gemini가 아닌 모델의 숫자는 별도 명시가 없는 한 일반적으로 제공자가 보고한 것이라고 말한다. Terminal-Bench 2.0에 대해서는 특히 Gemini 3.1 Pro는 자체 계산, 다른 모델은 공개 리더보드에서 가져온 것이며, 결과는 기본 Terminus-2 하네스와 해당되는 경우 다른 최고 자체 보고 하네스 모두에 대해 보고된다고 설명한다(Google DeepMind methodology PDF).

따라서 공정한 해석은 “Gemini가 모두를 압도한다”가 아니다. Gemini가 공통 Terminus-2 비교에서 Claude보다 3.1%포인트, GPT-5.3-Codex보다 3.8%포인트 앞선다. 이 설정에서 GPT-5.2는 명확히 뒤처진다.

GPT-5.3-Codex에 서로 다른 두 이야기가 있는 이유

가장 헷갈리는 행은 GPT-5.3-Codex다.

Google의 모델 카드는 Terminus-2 하네스에서 **64.7%**를 제시한다. 바로 아래 줄에서는 같은 카드가 “다른 최고 자체 보고 하네스” 숫자를 나열한다. GPT-5.2는 Codex 사용 시 62.2%, GPT-5.3-Codex는 **Codex 사용 시 77.3%**다(Google DeepMind). OpenAI의 GPT-5.3-Codex 발표 역시 xhigh 추론 노력 기준으로 **Terminal-Bench 2.0에서 77.3%**를 보고하며, 이 모델을 Codex용 코딩 에이전트 모델로 명시적으로 설명한다(OpenAI).

둘 다 사실일 수 있다.

CLI 코딩 에이전트는 상태 없는 채팅 완성이 아니다. 파일이 어떻게 노출되는지, 명령이 어떻게 실행되는지, 패치가 어떻게 적용되는지, 상태가 어떻게 요약되는지, 모델이 잘못된 경로에서 얼마나 자주 복구할 수 있는지, 때로는 추론 노력이 어떻게 선택되는지까지 하네스가 결정한다. Codex CLI를 사용한다면 OpenAI의 77.3% 숫자가 관련 있다. 같은 서드파티 에이전트 하네스 안에서 모델을 비교한다면 64.7% Terminus-2 숫자가 더 깔끔한 비교다.

이 구분은 실제 사용 방식과도 직접 연결된다.

# Same task, different agent harness can change the result
agent run --model gemini-3.1-pro-preview --harness terminus-2
agent run --model gpt-5.3-codex --harness codex-cli

팀에서 자체 CLI 에이전트를 만들고 있다면, 제공자의 최고 하네스 점수를 스프레드시트에 그대로 복사해 넣고 모델 품질이라고 부르지 말아야 한다. 이를 시스템 품질로 다뤄라. 모델, 도구 루프, 메모리, 재시도 정책, 패치 메커니즘, 샌드박스, 프롬프트 계약까지 포함한다.

“개발자 작업”이 에이전트 하네스로 들어가 모델, 터미널 도구, 파일시스템 상태로 분기되는 흐름도

Terminal-Bench 2.0이 SWE-Bench보다 더 잘 측정하는 것

SWE-Bench는 여전히 유용하지만, Terminal-Bench는 다른 실패 모드를 포착한다. 모델이 그럴듯한 패치를 생성할 수 있어도 셸 안에서 작업하는 데는 서툴 수 있다.

Terminal-Bench 과제에는 QEMU에서 Linux 커널 빌드하기, Git 웹 서버 설정하기, 제공된 시크릿에 대한 7z 해시 크래킹하기, OpenSSL 인증서 생성하기, 데이터 파일 재구성하기 같은 작업이 포함된다. Terminal-Bench 사이트는 버전 2.0을 소프트웨어 엔지니어링, 머신러닝, 보안, 데이터 과학 등 여러 분야에 걸친 89개의 고품질 과제로 설명한다(Terminal-Bench).

이것이 중요한 이유는 CLI 에이전트가 지루하지만 비용이 큰 방식으로 실패하기 때문이다.

파일시스템에서 자신이 어디에 있는지 잊어버린다.
명령을 실행하고 stderr를 무시한 뒤 엉뚱한 파일을 패치한다.
보이는 테스트는 통과하지만 숨겨진 불변 조건을 놓친다.
계획을 세우기보다 탐색에 토큰을 소모한다.
설치 실패 한 번이나 불안정한 테스트 한 번 뒤에 막혀버린다.

이런 과제에서 Gemini 3.1 Pro의 Terminus-2 점수 68.5%는 인상적이다. 단순한 코드 합성이 아니라 강한 명령 루프 동작을 시사하기 때문이다. Claude Opus 4.6의 65.4%는 충분히 근접해 있어서, 벤치마크 차이만으로 성숙한 Claude Code 워크플로를 이전하지는 않을 것이다. GPT-5.2의 54.0%는 비용이 지배적인 제약이거나 그 주변에 매우 강력한 하네스를 갖춘 경우가 아니라면 어려운 터미널 자동화에 피하고 싶은 숫자다.

CLI 코딩 에이전트용 모델 선택하기

실무적인 순위는 무엇을 구매하려는지에 따라 달라진다.

가장 강한 공통 하네스 터미널 점수를 원한다면 Gemini 3.1 Pro부터 시작하라. 검증된 비교 행에서 앞서며, 200k 프롬프트 토큰 이하의 표준 토큰당 가격 기준으로 Claude Opus 4.6보다 저렴하다. 단점도 있다. 200k를 넘는 대형 저장소 프롬프트의 경우 Google의 게시 가격이 입력/출력 토큰 100만 개당 $2/$12에서 $4/$18로 올라가므로, 긴 컨텍스트 에이전트 실행에는 예산과 캐시 관리가 필요하다(Google AI).

이미 Claude 중심 워크플로를 운영하고 있다면 Claude Opus 4.6은 여전히 강력한 선택지다. Anthropic은 2026년 2월 5일 Opus 4.6을 출시했으며, 더 강한 코딩 성능, 더 긴 에이전트형 작업 성능, 개발자 플랫폼 베타의 100만 토큰 컨텍스트 윈도우를 내세웠다(Anthropic). Terminus-2 점수 65.4%는 Gemini에 가깝다. 가격은 더 높다. 표준 가격 기준 입력 100만 토큰당 $5, 출력 100만 토큰당 $25다.

최고의 Codex 전용 터미널 숫자를 원한다면 GPT-5.3-Codex는 별도로 평가할 가치가 있다. 제공자 보고 Terminal-Bench 2.0 점수 77.3%는 OpenAI의 Codex 설정에 연결되어 있으며, 공통 Terminus-2 행은 64.7%다. 이는 모순이 아니다. 경고 라벨이다.

GPT-5.2를 검토하고 있다면, 그 근거는 비용과 범용 역량이지 최고 수준의 터미널 에이전시가 아니다. OpenAI는 GPT-5.2를 입력/출력 토큰 100만 개당 $1.75/$14로 책정했고, API에서 xhigh 추론 노력을 지원한다고 말한다(OpenAI). 하지만 공통 Terminal-Bench 2.0 행에서 54.0%는 큰 격차다.

결론

터미널 기반 코딩 에이전트라면 나는 다음과 같이 후보를 추릴 것이다. 최고의 공통 하네스 Terminal-Bench 2.0 성능은 Gemini 3.1 Pro, 긴 컨텍스트 코딩 신뢰성을 중시하고 이미 Claude 워크플로를 신뢰하는 팀에는 Claude Opus 4.6, 목표 런타임이 Codex 자체일 때는 GPT-5.3-Codex, 터미널 성공률보다 가격이나 API 가용성이 더 중요할 때만 GPT-5.2.

핵심 교훈은 방법론에 있다. Terminal-Bench 점수는 결코 “모델”만의 점수가 아니다. CLI 에이전트를 만드는 개발자에게 하네스는 제품의 일부다. 두 숫자를 모두 추적하라. 원시적인 이식성을 알려주는 공통 하네스 점수와, 전체 네이티브 스택이 무엇을 할 수 있는지 알려주는 제공자 하네스 점수다.

이 모델들을 직접 사용해보고 싶은 독자는 OpenAI 호환 API로 onehop에서 Claude와 다른 모델을 호출할 수 있다. base_url 하나만 바꾸고 클라이언트의 나머지는 대부분 그대로 유지한 채, 1차 제공자 경로와 비용을 비교하면 된다. 신규 계정은 카드 없이 $10 무료 크레딧을 받는다. onehop에서 Claude와 다른 모델 호출하기, 또는 $10 무료 크레딧으로 가입하기.

Terminal-Bench 2.0에서 Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6

중요한 숫자: 68.5%

개발자가 실제로 봐야 할 벤치마크 표

GPT-5.3-Codex에 서로 다른 두 이야기가 있는 이유

Terminal-Bench 2.0이 SWE-Bench보다 더 잘 측정하는 것

CLI 코딩 에이전트용 모델 선택하기

결론

관련 글

SWE-Bench Pro에서 GPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro 비교

Aider Polyglot 코딩에서 GPT-5 vs Gemini 2.5 Pro vs Claude Opus 4

DashScope 호환 모드로 OpenAI SDK에서 Qwen3.7 Plus 호출하기