Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro：ロングコンテキストAPI料金比較

OpenAIのGPT-5.5ページには、1,050,000トークンのコンテキストウィンドウと、100万トークンあたり入力$5／出力$30と記載されています。AnthropicはClaude API上のClaude Opus 4.8について、1Mコンテキストで$5／$25としています。GoogleはGemini 3.1 Pro Previewを、200Kトークンまでのプロンプトでは$2／$12、200K超では$4／$18に設定しています。

ロングコンテキストをめぐる競争は、この一文に集約されます。GPT-5.5は公称最大のウィンドウとプレミアムな出力単価を提供し、Claude Opus 4.8はより安い出力で1M級ワークフローに対応し、Gemini 3.1 Pro Previewは特にプロンプトが200Kトークン未満に収まる場合に最も鋭い価格優位性を持ちます。

GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro Previewの3列を並べた横長の表紙風比較チャート。各列

開発者が本当に必要とする料金表

以下は、2026年6月15日に公式ページと照合した、各ベンダーの現行ファーストパーティAPI定価です。

モデル	入力 / 100万トークン	出力 / 100万トークン	最大コンテキスト	出力上限	料金の崖
GPT-5.5	$5.00	$30.00	1,050,000	128,000	プロンプトサイズ別の段階料金表示なし
Claude Opus 4.8	$5.00	$25.00	Claude APIで1M	128,000	プロンプトサイズ別の段階料金表示なし
Gemini 3.1 Pro Preview	200Kプロンプトまで$2.00、超過分は$4.00	200Kプロンプトまで$12.00、超過分は$18.00	1M入力	64K	200K超の入力で価格が倍増

OpenAIのモデルドキュメントでは、GPT-5.5を複雑な専門業務向けのフロンティアモデルと説明し、100万トークンあたり入力$5、キャッシュ済み入力$0.50、出力$30、さらに1,050,000トークンのウィンドウを記載しています（OpenAI）。Anthropicの公開料金ページでは、Opus 4.8を100万トークンあたり入力$5、出力$25、キャッシュ書き込み$6.25、キャッシュ読み取り$0.50としています（Anthropicの料金）。Opus 4.8のモデルノートでは、このモデルがClaude API、Amazon Bedrock、Vertex AIではデフォルトで1Mトークンコンテキストをサポートし、Microsoft Foundryでは200Kに対応すると述べています（Anthropicドキュメント）。GoogleのGemini料金ページでは、gemini-3.1-pro-previewを200Kトークンまでのプロンプトで$2／$12、200K超で$4／$18としています（Googleの料金）。Gemini 3ガイドでは、Gemini 3モデルについて1M入力コンテキストと最大64K出力を記載しています（Google Gemini 3ガイド）。

落とし穴は、「100万トークンあたり」という表現により価格が線形に見えることです。Geminiは完全には線形ではありません。プロンプトサイズの段階料金が重要です。

コストの崖：200Kトークンが境界線

多くの開発者向けエージェントにとって、200Kトークンは大きな数字ではありません。中規模リポジトリにpackage-lock.json、いくつかの生成ファイル、設計ドキュメントを加えるだけで簡単に超えてしまいます。法務契約のコーパスやカスタマーサポートのアーカイブなら、さらに早く同じことが起きます。

ファーストパーティ料金の概算例：

ワークロード	GPT-5.5	Claude Opus 4.8	Gemini 3.1 Pro Preview
100K入力 + 10K出力	$0.80	$0.75	$0.32
250K入力 + 25K出力	$2.00	$1.88	$1.45
1M入力 + 50K出力	$6.50	$6.25	$4.90

前提：標準のテキストトークン料金のみ、バッチ割引なし、プロバイダー固有のキャッシュ節約なし、追加ツール料金なし、Geminiはプロンプトが200Kトークンを超える場合に上位料金を適用。実際の請求額は、プロンプトキャッシュ、バッチAPI、優先モード、高速モード、ツール、リトライを使うかどうかで変動します。

実用的なポイントは単純です。プロンプトが200Kトークン未満なら、Gemini 3.1 Pro Previewは定価ベースで圧倒的に安いです。200Kを超えても、これらの例ではGPT-5.5やOpus 4.8を下回りますが、差は縮まります。ClaudeとGPTは料金面がよりフラットなので、プロンプトサイズが大きく変動する場合でもコスト予測がしやすくなります。

10K固定出力と50Kから1Mトークンまでの入力サイズに対する推定リクエストコストを示す折れ線グラフ。Geminiには目に見える

コンテキストウィンドウは、有用なコンテキストと同じではない

1Mトークンのウィンドウがあれば、一部の検索拡張設計を省けます。しかし、選択、圧縮、評価が不要になるわけではありません。

リポジトリ全体の分析であっても、私はデフォルトでリポジトリ全体を丸ごと投入することは避けます。まずモデルにマニフェストを渡します。ファイルツリー、パッケージメタデータ、ビルドスクリプト、依存関係グラフ、最近変更されたファイル、テスト失敗です。そのうえで、重要なファイルを追加します。ロングコンテキストは設計をやめる口実ではなく、余裕として使うのが最適です。

Claude Opus 4.8は、Anthropicのモデルノートで「複雑な推論、長期的なエージェント型コーディング、高自律性の作業」向けであると明確に位置付けられています（Anthropicドキュメント）。同じページでは、長期的なエージェント型コーディング、ツール呼び出し、圧縮からの回復、ロングコンテキスト品質の改善にも触れています。これらはまさに、実際のコーディングエージェントで2時間を過ぎたあたりから現れる失敗モードです。忘れられた制約、スキップされたツール呼び出し、要約後の不十分な回復です。

OpenAIはGPT-5.5を「コーディングと専門業務」向けと位置付け、ここで挙げた中では最大のコンテキストウィンドウである1,050,000トークンを提供しています（OpenAI）。公称1Mを50K上回ることだけで選ぶ理由にはなりませんが、オーケストレーション層がシステムメッセージ、ツールスキーマ、トレース、検索されたファイルを追加する場合には有用な余裕になります。

Googleは料金ページとGemini 3ガイドで、Gemini 3.1 Pro Previewを幅広い世界知識、モダリティ横断の高度な推論、エージェント機能、vibe-coding向けのProモデルと説明しています（Googleの料金、Google Gemini 3ガイド）。また、gemini-3.1-pro-preview-customtoolsバリアントもサポートしており、Googleは、アプリがBashとカスタムツールを組み合わせ、モデルにカスタムツールを優先させる必要がある場合に推奨しています。これはエージェント構築者に向けた非常に具体的な手がかりです。

シナリオ別の選び方

リポジトリ全体を扱うコーディングエージェントを構築しているなら、Claude Opus 4.8またはGPT-5.5から始め、その後、自分たちのトレースでGemini 3.1 Pro Previewをベンチマークしてください。Claudeの$25の出力単価は、詳細なパッチ計画、コードレビュー、複数ステップのツールループにおいて、GPT-5.5に対する直接的なコスト優位になります。GPT-5.5には公称最大のウィンドウがあり、コーディング／専門業務向けという強い位置付けがあります。ワークフローがOpenAIのResponses APIエコシステムから恩恵を受ける場合、または既存スタックがすでにOpenAIネイティブである場合、私はGPT-5.5を選びます。

ドキュメント量の多い分析エージェントを構築しているなら、Gemini 3.1 Pro Previewを最初にコストテストするモデルにします。100K入力と10K出力では、定価ベースの見積もりは$0.32で、上の表のClaude Opus 4.8とGPT-5.5の半分未満です。プロンプトが頻繁に200Kを超えるなら、この崖に注意してください。崖は致命的ではありませんが、最適化対象が変わります。頻繁に繰り返される定型部分はキャッシュまたは要約し、ルーティングされた一部で足りる場合はすべてのPDFページを添付しないようにします。

安定したコスト予測が必要なら、3つの中ではClaude Opus 4.8が最もわかりやすいです。GPT-5.5と同じ$5の入力、より安い出力、1Mコンテキスト、そして記載された料金に200Kプロンプト段階がありません。エージェント実行を機能として販売するチームにとって、予測可能な出力コストは重要です。

最も安いフラッグシップ級ロングコンテキストの入口が必要なら、ファーストパーティ定価ではGeminiが勝ちます。トレードオフはプレビュー状態と段階料金の境界です。永続的なデフォルトではなく、有力な候補として扱ってください。

実践的なルーティングパターン

製品内で1つのフラッグシップモデルをハードコードしないでください。プロンプトサイズ、出力リスク、タスクタイプでルーティングします。

妥当な初期ポリシー：

if prompt_tokens <= 200_000 and task is document-heavy:
    try Gemini 3.1 Pro Preview
elif task is long-running coding agent:
    try Claude Opus 4.8
elif task needs OpenAI-native agent tooling or the largest listed window:
    try GPT-5.5
else:
    run a small eval set across all three

3つのベンダーを接続せずにこれらのモデルを試したいなら、onehopが簡単な道です。ベースURLを1つhttps://api.onehop.ai/v1に変更し、OpenAI/Anthropic互換の呼び出しを使い、Claude、GPT、Geminiを1か所からルーティングできます。onehopはファーストパーティより安く、新規アカウントに$10の無料クレジットを提供し、カード不要だと述べています。

OpenAI SDKスタイルの例：

from openai import OpenAI

client = OpenAI(
    api_key="ONEHOP_API_KEY",
    base_url="https://api.onehop.ai/v1",
)

response = client.chat.completions.create(
    model="claude-opus-4-8",
    messages=[
        {"role": "user", "content": "Review this repo manifest and list the riskiest files."}
    ],
)

print(response.choices[0].message.content)

重要なのはSDKではありません。規律です。同じタスク、同じファイル、同じ採点ルーブリック、3つのモデル。トークン単価を単独で見るのではなく、成功した実行あたりのコストを測ってください。

結論

2026年6月15日時点での私のデフォルト推奨は次のとおりです。

プロンプトが200Kトークン未満のドキュメント量の多いワークロードでは、まずGemini 3.1 Pro Previewを選ぶ。
出力コストとツール信頼性が重要な長時間実行のコーディングエージェントでは、まずClaude Opus 4.8を選ぶ。
OpenAIネイティブのエージェント基盤、または公称最大のコンテキストウィンドウが必要な場合は、まずGPT-5.5を選ぶ。
200Kトークンを超える場合は、Geminiの料金段階で計算が変わるため再テストする。
プロンプトを巨大で高価な塊に微調整する前に、プロンプトキャッシュとルーティングを使う。

ロングコンテキストは今や最低条件です。本当の選択は、エージェントがどこにお金を使うかです。大量の入力、冗長な出力、リトライ、あるいはツールのミスです。これらを素早く比較するための単一エンドポイントが欲しいなら、onehopでClaudeやその他のモデルを呼び出し、その後$10の無料クレジットに登録して、本格採用前に自分たちの評価トレースを実行できます。

Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro：ロングコンテキストAPI料金比較

開発者が本当に必要とする料金表

コストの崖：200Kトークンが境界線

コンテキストウィンドウは、有用なコンテキストと同じではない

シナリオ別の選び方

実践的なルーティングパターン

結論

関連記事

DashScope 互換モード経由で OpenAI SDK から Qwen3.7 Plus を呼び出す

SWE-Bench ProにおけるGPT-5.6 Sol vs Claude Fable 5 vs Gemini 3.1 Pro

OpenAI SDKでGroq GPT-OSS 120Bを使う：Base URL、料金、キャッシュ