タオリスAIベンチマークとは

タオリス人機和総研は、独立系シンクタンクとしてベンダー中立のAIモデル実測データを提供する。特定のプロバイダに肩入れせず、実際のAPIを叩いて得られた生データに基づく評価を行う。

既存のベンチマーク(MMLU、HumanEval等)がモデルの「知識」や「コード生成力」を測定するのに対し、タオリスAIベンチマークは企業が実務でAIを使う際に遭遇する課題 — 配信率、一貫性、API統合リスク、タスク完遂率 — にフォーカスする。

評価の3原則

実測主義
全スコアは実際のAPI呼び出しから取得した生データに基づく。公式ベンチマーク数値の引用ではなく、独自環境での再現実験。
企業実務タスク
学術的なクイズではなく、情報収集、データ分析、マルチステップ業務、コードデバッグ、経営意思決定など実務で発生するタスクで評価。
配信率 × 品質
出力が返らなければスコアはゼロ。品質だけでなく「そもそも動くか」を重視する実効スコア方式。

最新ベンチマーク結果

Vol.1 2026年1月30日〜2月1日実施
エージェント信頼性テスト
6モデル × 5タスク × 200回 — GPT-5.2、Claude Opus 4.5、Gemini 3 Proなど最先端モデルの企業実務における信頼性を検証
Special 2026年2月4日公開
お礼・敬語実験
AIに「ありがとう」を言うと回答精度は上がるのか? 3モデル × 3スタイル × 150回以上の実験で検証
−0.3%
敬語 vs 命令形
品質差(実質なし)
−53%
命令形のトークン数
敬語より大幅削減
$15K
年間コスト削減
命令形採用時の試算
Data 2026年2月4日公開
AI系OSS栄枯盛衰 2024-2026
GitHub APIで主要10プロジェクトのコミット推移を実測。LangChain失速、LiteLLM急伸の実態
+81%
LiteLLM
コミット増加率
-55%
LlamaIndex
コミット減少率
0
AutoGen
Q4コミット数

評価フレームワーク

5次元評価

各タスクの出力を以下の5次元で0〜5点評価する(最大25点/タスク):

正確性 事実の正しさ
完遂率 要求の網羅度
論理性 推論の一貫性
自己認識 不確実性の開示
実用性 業務即応性

実効スコア方式

実効スコア = 品質スコア × コンテンツ配信率 — どんなに品質が高くても、出力が返らなければスコアはゼロ。この方式により、API統合の失敗や出力不能の問題が適切にペナルティとして反映される。


今後の計画

Vol.テーマ概要
Vol.2ツール使用能力Function calling、MCP、外部API連携の信頼性
Vol.3マルチモーダル画像理解・PDF解析・音声入力を含むタスク
Vol.4コスト効率品質/ドル、品質/レイテンシの最適フロンティア分析
Vol.5長期記憶・コンテキスト100K+ tokenのコンテキスト処理能力
運営:タオリス人機和総研
方針:ベンダー中立・実測主義・企業実務フォーカス
データ公開:全実験スクリプト・タスク定義はGitHubで公開中