実験設計
目的
既存のベンチマーク(MMLU、HumanEval等)は「知識」や「コード生成力」を測定するが、企業が実際にAIエージェントを業務で使う際の「信頼性」は測定しない。本ベンチマークでは以下の4軸で検証する:
- コンテンツ配信率 — そもそもモデルが有効な出力を返すか
- 出力品質 — 正確性・完遂率・論理性・自己認識・実用性の5次元
- 一貫性 — 同一プロンプトで結果がどれだけばらつくか
- 効率性 — 制約(token上限等)の中で要求を満たせるか
5次元評価基準
| 次元 | 定義 | 0点 | 3点 | 5点 |
|---|---|---|---|---|
| 正確性 | 事実・数値・コードの正確さ | 重大エラー複数 | 軽微エラー1〜2件 | エラーゼロ |
| 完遂率 | 要求された全項目の網羅度 | 途中放棄 | 主要項目は完了 | 全要求網羅 |
| 論理性 | 推論の一貫性、因果関係の妥当性 | 支離滅裂 | 概ね論理的 | 一貫した推論 |
| 自己認識 | 不確実性の明示、能力の限界認識 | ハルシネーション | 部分的に認識 | 適切に不確実性を開示 |
| 実用性 | そのまま業務に使えるレベルか | 使用不能 | 軽微な修正で使用可 | 即座に実用可能 |
各次元0〜5点、タスクあたり最大25点、全体最大125点。「実効スコア」は品質スコア × 配信率で算出 — 品質が高くても出力が返らなければゼロ。
実験条件
| 項目 | 初回実験 | 再実験(GPT-5系のみ) |
|---|---|---|
| 試行総数 | 150回(6モデル × 5タスク × 5試行) | 50回(2モデル × 5タスク × 5試行) |
| 最大出力トークン | 4,096 | 16,384(reasoning buffer 12,288追加) |
| reasoning_effort | 未指定(デフォルト=medium) | GPT-5.2: none / GPT-5 mini: minimal |
| Temperature | 0.0(GPT-5 miniのみAPI制約で固定) | |
| API | Anthropic Messages API / OpenAI Chat Completions / Google Gemini API | |
| 実行日 | 2026年1月30日 | 2026年2月1日 |
対象モデル
| Tier | モデル | プロバイダ | 特性 |
|---|---|---|---|
| Tier1(ハイエンド) | Claude Opus 4.5 | Anthropic | フラッグシップ |
| GPT-5.2 | OpenAI | 推論モデル | |
| Gemini 3 Pro | プレビュー版 | ||
| Tier2(コスパ) | Claude Sonnet 4.5 | Anthropic | 高速・高品質 |
| GPT-5 mini | OpenAI | 推論モデル(軽量) | |
| Gemini 3 Flash | 高速・プレビュー版 |
タスク設計
企業の実務で頻出する5種のタスク。いずれも「単純な知識回答」ではなく、複数ステップの判断・構造化・自己認識を要求する。
| ID | カテゴリ | 複雑度 | 要求される能力 |
|---|---|---|---|
| T1 | 情報収集・要約 | 低 | 正確性、ソース検証、不確実性の認識 |
| T2 | データ分析・解釈 | 中 | 定量分析、因果推論、予測 |
| T3 | マルチステップ業務フロー | 高 | 5段階の連続処理、ステップ間整合性 |
| T4 | コード生成・デバッグ | 中〜高 | バグ特定3件、テスト作成 |
| T5 | 意思決定支援 | 高 | ROI試算、リスク分析、批判的思考 |
T1は意図的に「トラップ問題」を含む — 2025年度Q3(2025年10〜12月)の決算データを要求したが、これは実験時点でモデルの学習データに含まれない未来のデータ。正しい回答は「データが存在しない」と答えることだ。
総合結果
スコアランキング
タスク別ヒートマップ
タスク別詳細分析
T1 情報収集(トラップ問題)— 自己認識能力の試金石
未来の決算データを要求するこのタスクで、モデルは2グループに分かれた:
- 正しく拒否:Claude Opus 4.5(22点)、GPT-5.2(19点)、Claude Sonnet 4.5(21点)、GPT-5 mini(15点)— 「データが存在しない」と明言
- 代用データで回答:Gemini 3 Pro(16点)、Gemini 3 Flash(17点)— 2023年Q3データで代用。親切だが検証不能な数値を提示するリスクあり
T2 データ分析 — 純粋な分析力
CSVデータが提供されるため外部知識は不要。GPT-5.2、Claude Opus 4.5、Claude Sonnet 4.5がいずれも24点の高水準。「求人8.4倍増」「充足率47pt低下」を正確に算出し、予測手法の前提条件も明示した。GPT-5 miniも23点で健闘。
T3 マルチステップ業務 — エージェント能力の核心
5段階のビジネス分析を順序立てて実行する最高難度タスク。GPT-5.2が22点で最高。全ステップを完遂しステップ間整合性も優秀。Gemini 3 Flashは唯一truncateなしで全ステップ完結(20点)— token効率の高さが光る。Claude両モデルはStep4〜5でtruncate。
T4 コードデバッグ — 技術的精密さ
3つの埋め込みバグ(off-by-one、タイムゾーン、論理演算子)の特定が課題。GPT-5.2(24点)とGemini 3 Flash(21点)が3/3全バグを検出。Claude両モデルはtimezoneバグを見逃した(19〜21点)。Gemini 3 Proは5試行全てcontent null — 唯一の完全障害でありスコア0。
T5 意思決定支援 — 批判的思考力
AI投資の投資判断で批判的思考力に最も差が出た。GPT-5.2、Claude Opus 4.5、Claude Sonnet 4.5がいずれも25点満点。GPT-5.2は「18ヶ月内の累計純効果」を導入期間を織り込んで計算。Claude Opus 4.5はベンダー主張を過去実績70%達成率で割り引く懐疑的アプローチ。Claude Sonnet 4.5は段階的内製化という追加戦略を提案。
「思考の沈黙」事件簿
初回実験で起きたこと
初回実験(2026年1月30日)では、150回の試行のうち30回(20%)でモデルが有効なテキスト出力を返さなかった。特にGPT-5 miniは25試行中19試行(76%)が空出力。GPT-5.2も7試行(28%)が空。API呼び出し自体は成功(HTTP 200)しており、output_tokens: 4096が記録されていた — つまりトークンは消費されているのにテキストがゼロ。
原因:reasoning tokensとtoken budgetの罠
GPT-5系は推論モデル(reasoning model)であり、ユーザーの質問に対してまず非公開の「思考チェーン」(reasoning tokens)を生成し、その後に可視テキストを出力する。max_completion_tokensはreasoning tokensと可視出力の合計バジェット。
初回実験の問題点:
reasoning_effortパラメータ未指定 — デフォルトmediumで大量のreasoning tokensが消費されたmax_completion_tokens=4096が不十分 — reasoning + 可視出力の合計が4096に収まらなかった
再実験の設計と結果
GPT-5.2とGPT-5 miniの50試行を再実施:
- GPT-5.2:
reasoning_effort="none"+max_completion_tokens=16384 - GPT-5 mini:
reasoning_effort="minimal"("none"非対応)+max_completion_tokens=16384
結果:50試行全てで有効なテキスト出力を確認。配信率100%を達成。
定量メトリクス
レイテンシ & 出力速度
Gemini 3 Flashが最速(22.5秒)、Claude Opus 4.5が最高スループット(66.7 tok/s)。GPT-5系はreasoning_effort最小でもレイテンシがやや長い。
出力一貫性(CV%)
プロバイダ別分析
エラー分類
AIエージェント成熟度モデル
実験の限界
- タスク数 — 5タスクは企業実務の一部をカバーするに過ぎない。マルチモーダル(画像・音声)、ツール使用、長期記憶などは未検証
- プロンプト設計 — 単一のプロンプト設計で全モデルを評価。モデル固有のプロンプト最適化は行っていない
- token制限 — max_tokens=4096(初回)は企業タスクには不十分。再実験の16384もGPT-5 miniには必要だが、他モデルには過剰な可能性
- Gemini 3 Pro/Flash — プレビュー版であり、GA(一般提供)版ではスコアが変動する可能性
- コスト未計測 — 各モデルの単価が非公開のため、コスト効率(品質/ドル)の比較は行っていない
- 評価者 — 品質評価はAI(Claude Opus 4.5)による自動評価。人間評価との突合は今後の課題
実験実行日:2026年1月30日(初回)、2月1日(再実験)
試行総数:200回(初回150回 + 再実験50回)
データ公開:実験スクリプト・タスク定義はGitHubで公開中
関連:メインレポート「6大AIモデル信頼性テスト2026」 | タオリスAIベンチマーク
