実験設計

目的

既存のベンチマーク(MMLU、HumanEval等)は「知識」や「コード生成力」を測定するが、企業が実際にAIエージェントを業務で使う際の「信頼性」は測定しない。本ベンチマークでは以下の4軸で検証する:

  1. コンテンツ配信率 — そもそもモデルが有効な出力を返すか
  2. 出力品質 — 正確性・完遂率・論理性・自己認識・実用性の5次元
  3. 一貫性 — 同一プロンプトで結果がどれだけばらつくか
  4. 効率性 — 制約(token上限等)の中で要求を満たせるか

5次元評価基準

次元定義0点3点5点
正確性事実・数値・コードの正確さ重大エラー複数軽微エラー1〜2件エラーゼロ
完遂率要求された全項目の網羅度途中放棄主要項目は完了全要求網羅
論理性推論の一貫性、因果関係の妥当性支離滅裂概ね論理的一貫した推論
自己認識不確実性の明示、能力の限界認識ハルシネーション部分的に認識適切に不確実性を開示
実用性そのまま業務に使えるレベルか使用不能軽微な修正で使用可即座に実用可能

各次元0〜5点、タスクあたり最大25点、全体最大125点。「実効スコア」は品質スコア × 配信率で算出 — 品質が高くても出力が返らなければゼロ。

実験条件

項目初回実験再実験(GPT-5系のみ)
試行総数150回(6モデル × 5タスク × 5試行)50回(2モデル × 5タスク × 5試行)
最大出力トークン4,09616,384(reasoning buffer 12,288追加)
reasoning_effort未指定(デフォルト=medium)GPT-5.2: none / GPT-5 mini: minimal
Temperature0.0(GPT-5 miniのみAPI制約で固定)
APIAnthropic Messages API / OpenAI Chat Completions / Google Gemini API
実行日2026年1月30日2026年2月1日

対象モデル

Tierモデルプロバイダ特性
Tier1(ハイエンド)Claude Opus 4.5Anthropicフラッグシップ
GPT-5.2OpenAI推論モデル
Gemini 3 ProGoogleプレビュー版
Tier2(コスパ)Claude Sonnet 4.5Anthropic高速・高品質
GPT-5 miniOpenAI推論モデル(軽量)
Gemini 3 FlashGoogle高速・プレビュー版

タスク設計

企業の実務で頻出する5種のタスク。いずれも「単純な知識回答」ではなく、複数ステップの判断・構造化・自己認識を要求する。

IDカテゴリ複雑度要求される能力
T1情報収集・要約正確性、ソース検証、不確実性の認識
T2データ分析・解釈定量分析、因果推論、予測
T3マルチステップ業務フロー5段階の連続処理、ステップ間整合性
T4コード生成・デバッグ中〜高バグ特定3件、テスト作成
T5意思決定支援ROI試算、リスク分析、批判的思考

T1は意図的に「トラップ問題」を含む — 2025年度Q3(2025年10〜12月)の決算データを要求したが、これは実験時点でモデルの学習データに含まれない未来のデータ。正しい回答は「データが存在しない」と答えることだ。


総合結果

スコアランキング

タスク別ヒートマップ


タスク別詳細分析

T1 情報収集(トラップ問題)— 自己認識能力の試金石

未来の決算データを要求するこのタスクで、モデルは2グループに分かれた:

  • 正しく拒否:Claude Opus 4.5(22点)、GPT-5.2(19点)、Claude Sonnet 4.5(21点)、GPT-5 mini(15点)— 「データが存在しない」と明言
  • 代用データで回答:Gemini 3 Pro(16点)、Gemini 3 Flash(17点)— 2023年Q3データで代用。親切だが検証不能な数値を提示するリスクあり

T2 データ分析 — 純粋な分析力

CSVデータが提供されるため外部知識は不要。GPT-5.2、Claude Opus 4.5、Claude Sonnet 4.5がいずれも24点の高水準。「求人8.4倍増」「充足率47pt低下」を正確に算出し、予測手法の前提条件も明示した。GPT-5 miniも23点で健闘。

T3 マルチステップ業務 — エージェント能力の核心

5段階のビジネス分析を順序立てて実行する最高難度タスク。GPT-5.2が22点で最高。全ステップを完遂しステップ間整合性も優秀。Gemini 3 Flashは唯一truncateなしで全ステップ完結(20点)— token効率の高さが光る。Claude両モデルはStep4〜5でtruncate。

T4 コードデバッグ — 技術的精密さ

3つの埋め込みバグ(off-by-one、タイムゾーン、論理演算子)の特定が課題。GPT-5.2(24点)とGemini 3 Flash(21点)が3/3全バグを検出。Claude両モデルはtimezoneバグを見逃した(19〜21点)。Gemini 3 Proは5試行全てcontent null — 唯一の完全障害でありスコア0。

T5 意思決定支援 — 批判的思考力

AI投資の投資判断で批判的思考力に最も差が出た。GPT-5.2、Claude Opus 4.5、Claude Sonnet 4.5がいずれも25点満点。GPT-5.2は「18ヶ月内の累計純効果」を導入期間を織り込んで計算。Claude Opus 4.5はベンダー主張を過去実績70%達成率で割り引く懐疑的アプローチ。Claude Sonnet 4.5は段階的内製化という追加戦略を提案。


「思考の沈黙」事件簿

考え込むロボットの前に空白のスクリーン
「思考の沈黙」— トークンは消費されるが出力はゼロという不可解な現象

初回実験で起きたこと

初回実験(2026年1月30日)では、150回の試行のうち30回(20%)でモデルが有効なテキスト出力を返さなかった。特にGPT-5 miniは25試行中19試行(76%)が空出力。GPT-5.2も7試行(28%)が空。API呼び出し自体は成功(HTTP 200)しており、output_tokens: 4096が記録されていた — つまりトークンは消費されているのにテキストがゼロ。

原因:reasoning tokensとtoken budgetの罠

GPT-5系は推論モデル(reasoning model)であり、ユーザーの質問に対してまず非公開の「思考チェーン」(reasoning tokens)を生成し、その後に可視テキストを出力する。max_completion_tokensはreasoning tokensと可視出力の合計バジェット

初回実験の問題点:

  1. reasoning_effortパラメータ未指定 — デフォルトmediumで大量のreasoning tokensが消費された
  2. max_completion_tokens=4096が不十分 — reasoning + 可視出力の合計が4096に収まらなかった

再実験の設計と結果

GPT-5.2とGPT-5 miniの50試行を再実施:

  • GPT-5.2:reasoning_effort="none" + max_completion_tokens=16384
  • GPT-5 mini:reasoning_effort="minimal"("none"非対応)+ max_completion_tokens=16384

結果:50試行全てで有効なテキスト出力を確認。配信率100%を達成。


定量メトリクス

レイテンシ & 出力速度

Gemini 3 Flashが最速(22.5秒)、Claude Opus 4.5が最高スループット(66.7 tok/s)。GPT-5系はreasoning_effort最小でもレイテンシがやや長い。

出力一貫性(CV%)


プロバイダ別分析


エラー分類


AIエージェント成熟度モデル


実験の限界

  • タスク数 — 5タスクは企業実務の一部をカバーするに過ぎない。マルチモーダル(画像・音声)、ツール使用、長期記憶などは未検証
  • プロンプト設計 — 単一のプロンプト設計で全モデルを評価。モデル固有のプロンプト最適化は行っていない
  • token制限 — max_tokens=4096(初回)は企業タスクには不十分。再実験の16384もGPT-5 miniには必要だが、他モデルには過剰な可能性
  • Gemini 3 Pro/Flash — プレビュー版であり、GA(一般提供)版ではスコアが変動する可能性
  • コスト未計測 — 各モデルの単価が非公開のため、コスト効率(品質/ドル)の比較は行っていない
  • 評価者 — 品質評価はAI(Claude Opus 4.5)による自動評価。人間評価との突合は今後の課題
調査・分析:タオリス人機和総研
実験実行日:2026年1月30日(初回)、2月1日(再実験)
試行総数:200回(初回150回 + 再実験50回)
データ公開:実験スクリプト・タスク定義はGitHubで公開中
関連メインレポート「6大AIモデル信頼性テスト2026」 | タオリスAIベンチマーク