一次情報に基づく独自の調査・研究レポート
7つの最新LLMに日本語能力試験を解かせ、さらに問題を作らせた。「解ける」と「作れる」は全く別の能力だった。
7つのフロンティアLLMにJLPT問題の解答と生成を要求。Claude Opus 4.6が総合1位(92.7%)、全モデルでハルシネーション検出。敬語カテゴリのハルシネーション率35%が最大の弱点。
Claude Opus 4.5・GPT-5.2・Gemini 3 Proで独自実験
AIに敬語を使うと回答は変わるのか? 3つの最新LLMで実験した結果、命令形は敬語の半分以下のトークンで回答を完了し、年間$15,000の節約が可能であることが判明。先行研究との比較も交え、プロンプトの「言い方」の影響を定量的に検証した。
AI Sovereigntyが経営課題となった2026年、日本企業はどう動くべきか
IBM IBV調査で経営幹部の93%が「AI主権を戦略に組み込む必要がある」と回答。データ・モデル・インフラの3層で日本企業の依存構造を分析し、EU AI Act対応コストの定量化、国産LLMの実力評価、そして現実的な5つのアクションを提示する。
GPT-5.2が1位だが、設定ミスで性能ゼロ — AIエージェントの「幻滅の谷」を検証
Gartnerのハイプサイクルで「過度な期待のピーク」にあるAIエージェント。タオリス人機和総研が6つの最先端モデルで150回の実験を行った結果、全試行の20%でコンテンツ配信に失敗する深刻な信頼性問題が判明した。
2026年1月、600万ドルが揺るがした1兆ドルの前提。投資効率と実用価値の二軸で問われるAI産業の真の実力
NVIDIAの四半期売上570億ドル、OpenAIのARR200億ドル。しかし2025年にはDeepSeekが600万ドルでo1同等モデルを実現し、生成AIは「幻滅の谷」に突入。企業の42%がAIプロジェクトを放棄し、Klarnaは解雇した人間を再雇用した。バブルか構造転換か — 2026年1月時点の包括的分析。