2026年2月5日、AIフロンティアモデル競争において歴史的な一日となった。OpenAIがGPT-5.3-Codexを、Anthropicが同日Claude Opus 4.6をリリース。両社が同時発表という異例の展開は、開発ツール市場における競争の激化を象徴している。
この記事では、両モデルの技術的特徴、ベンチマーク性能、価格戦略を詳細に比較し、エンタープライズユーザーにとっての実践的な選択指針を提供する。
GPT-5.3-Codex:自己開発に関与した初のモデル
OpenAIは2月5日にGPT-5.3-Codexをリリースした。「これまでで最も優れたエージェント型コーディングモデル」と位置づけられ、複雑なソフトウェアエンジニアリングタスクに対応する。特筆すべきは、このモデルが自己の開発プロセスに関与した初のモデルであるという点だ。
自己開発への関与
OpenAIの開発チームは、GPT-5.3-Codexの初期バージョンを活用して以下のタスクを実行した:
- 自身の訓練プロセスのデバッグ
- デプロイメントの支援
- 評価結果の診断
- GPUクラスタのスケーリング運用
AIモデルが自己の開発に実質的に貢献するという事態は、業界にとって新たな転換点を示している。
技術仕様と性能
GPT-5.3-Codexは前世代のGPT-5.2-Codexと比較して25%高速化されており、以下の環境で利用可能:
- Codexアプリ
- CLI(コマンドラインインターフェース)
- IDE拡張機能
- Webインターフェース
API経由のアクセスは、安全性が確認され次第提供予定とされている。
ベンチマーク性能
GPT-5.3-Codexは複数のベンチマークで印象的な結果を残している:
- Terminal-Bench 2.0:77.3%(前世代64.0%から大幅改善)
- OSWorld-Verified:64.7%(前世代38.2%から69%向上)
- SWE-Bench Pro:56.8%(前世代56.4%から微増)
- サイバーセキュリティCTF:77.6%(前世代67.4%から向上)
特にTerminal-BenchとOSWorldでの改善は、エージェント型タスクへの対応能力が飛躍的に向上したことを示している。
サイバーセキュリティ上の懸念と対策
GPT-5.3-Codexは、OpenAIの準備フレームワークにおいて「High capability」として分類された初のモデルである。コーディング能力の向上が同時にサイバーセキュリティリスクの増大をもたらすという現実に直面し、OpenAIは異例の厳格な管理体制でリリースを実施した。
「Trusted Access for Cyber」という新たなパイロットプログラムが発表され、開発者向けの完全アクセスは安全性が確認されるまで遅延される。
Claude Opus 4.6:エージェントチームとAdaptive Thinking
Anthropicは同日2月5日にClaude Opus 4.6をリリースした。Claude Codeにおいて特に重要なモデルであり、エージェント型タスクへの対応を大幅に強化している。
Agent Teams:並列エージェント協調
Opus 4.6の最も注目すべき機能は「Agent Teams」である。従来のエージェントがタスクを順次処理していたのに対し、複数のエージェントが分担して並列に作業できるようになった。
Anthropicの製品責任者Scott White氏は、この機能を「熟練した人間の同僚がチームで並列に働くようなもの」と表現している。各エージェントが自分の担当部分を所有し、他のエージェントと直接調整することで、大規模タスクの高速完了が可能となる。
Adaptive Thinking:文脈適応型推論
Opus 4.6はAnthropicモデルとして初めて「Adaptive Thinking」を採用した。これは文脈の手がかりを分析し、プロンプトにどれだけの推論努力を投入すべきかを動的に判断する機能である。単純な質問には素早く、複雑な問題には深く考えるという、より効率的な計算リソース配分を実現している。
コンテキストウィンドウと出力の拡張
Opusクラスとして初めて100万トークンのコンテキストウィンドウをサポート(ベータ版)。出力トークンも最大128,000トークンまで拡張された。
長文脈タスクでの性能は顕著に向上しており、MRCR v2の8ニードル1Mテストで76%を達成。前世代のSonnet 4.5が18.5%だったことを考えると、4倍以上の改善である。
ベンチマーク性能
Opus 4.6は複数のベンチマークでトップ性能を記録している:
- ARC AGI 2:68.8%(Opus 4.5の37.6%、GPT-5.2の54.2%を大きく上回る)
- Terminal-Bench 2.0:65.4%(エージェント型コーディング評価で高スコア)
- OSWorld:72.7%(Opus 4.5の66.3%から向上)
- Humanity''s Last Exam:フロンティアモデル中トップ
- GDPval-AA:GPT-5.2を約144 Eloポイント上回る
- BrowseComp:オンライン情報検索で最高パフォーマンス
特にARC AGI 2での68.8%という結果は、抽象的推論能力における大幅な進歩を示している。
PowerPoint統合
エンタープライズ向け機能として、ClaudeがPowerPointに直接統合された。サイドパネルからClaudeにアクセスし、プレゼンテーションの作成・編集を直接支援できる。これまでプレゼンテーションを一度エクスポートして編集する必要があったワークフローが簡素化された。
ベンチマーク直接比較
| ベンチマーク | GPT-5.3-Codex | Claude Opus 4.6 | 勝者 |
|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | GPT-5.3-Codex |
| OSWorld | 64.7% | 72.7% | Opus 4.6 |
| ARC AGI 2 | — | 68.8% | Opus 4.6 |
| SWE-Bench Pro | 56.8% | — | (直接比較不可) |
| サイバーセキュリティCTF | 77.6% | — | GPT-5.3-Codex |
Terminal-Benchではgpt-5.3-Codexが優位、OSWorldとARC AGI 2ではOpus 4.6が優位という結果となった。コーディングタスクの種類によって最適なモデルが異なることを示唆している。
価格比較:用途に応じた選択
両モデルの価格戦略は異なるアプローチを採用している。
GPT-5.3-Codexの価格
GPT-5.3-CodexはGPT-5.2の価格体系を継承している。参考として:
| モード | 入力($/M tokens) | 出力($/M tokens) |
|---|---|---|
| Instant / Thinking | $1.75 | $14.00 |
| Pro | $21.00 | $168.00 |
キャッシュ入力は90%割引が適用され、Batch APIでは50%割引も利用可能。
Claude Opus 4.6の価格体系
| コンテキスト | 入力($/M tokens) | 出力($/M tokens) |
|---|---|---|
| 200Kトークン以下 | $5.00 | $25.00 |
| 200Kトークン超 | $10.00 | $37.50 |
プロンプトキャッシングで最大90%、バッチ処理で50%のコスト削減が可能。
エンタープライズ採用への示唆
両モデルの同時リリースは、エンタープライズAI採用において重要な示唆を与える。
エージェント型開発の本格化
GPT-5.3-CodexのTerminal-Bench 77.3%とOpus 4.6のAgent Teams機能は、AIエージェントが単なる実験段階から本番運用可能な段階に移行しつつあることを示している。複雑なタスクを分割して並列処理できる能力は、開発生産性を大幅に向上させる可能性がある。
セキュリティとガバナンスの重要性
GPT-5.3-Codexが「High capability」として分類され、APIアクセスが遅延されていることは、能力向上とリスク管理のトレードオフを象徴している。エンタープライズはモデル選択にあたり、セキュリティポリシーとの整合性を慎重に検討する必要がある。
ユーザー層の拡大
AnthropicのWhite氏が指摘するように、これらのモデルはソフトウェア開発者に限らず、プロダクトマネージャー、財務アナリスト、様々な業界の専門家に利用されつつある。PowerPoint統合のような機能は、非技術者へのAI普及を加速させる。
今後の展望
2026年2月13日には、GPT-4o、GPT-4.1、GPT-4.1 mini、o4-mini、GPT-5 Instant、GPT-5 ThinkingがChatGPTから退役予定である。レガシーモデルの整理が進む中、GPT-5.3-CodexとOpus 4.6がフロンティアモデルの新たな基準となりつつある。
同日リリースという展開は、OpenAIとAnthropicの競争が新たなフェーズに入ったことを示している。Gemini 3 Proも加えた3社間の競争が、エンタープライズユーザーにとってどのような価値を生むのか、今後の動向を注視する必要がある。



