「人間にとって読みやすい文章」と「AIにとって処理しやすい文章」は同じなのか、それとも異なるのか。この問いに答えるため、我々は同一の情報を5つの異なる文体で記述し、大規模言語モデル(Claude Opus 4.5)に質問応答テストを実施した。300回の実験から得られた結論は、事前の仮説を覆すものであった。構造化された箇条書きがAIに最適という通説は誤りであり、むしろ物語的なジャーナリスト調が最も高い正答率を示した。人間の可読性とAIの理解度の間には、ほぼ相関がなかった。

実験設計 ── 同一情報・5文体・300回の質問応答

本実験では、「量子コンピューティングの商用化動向」と「世界の半導体産業の再編」という2つのテーマについて、各10個の事実セットを用意した。これらの事実セットを以下の5つの文体に変換し、同一の情報を異なる表現形式で提示した。

  • ジャーナリスト調: 比喩、物語構造、逆ピラミッド型の記述
  • 学術論文調: 受動態、引用形式、長い修飾節を含む専門的記述
  • 箇条書き/構造化: Markdown的な箇条書き、情報密度が高く省略のない記述
  • 口語/会話調: フィラー、省略、倒置、暗黙の文脈を含む日常会話的記述
  • SEO/LLMO最適化調: キーワード反復、FAQ構造、明示的な見出しを多用する検索最適化型記述

各テキストに対して10問の質問(事実確認5問、推論5問)を設計し、Claude Opus 4.5に3回ずつ回答させた。温度パラメータは0に固定し、再現性を確保した。合計300回(5文体×2テーマ×10問×3試行)の質問応答を実施し、別のAI(Claude Sonnet 4)による採点で「正解」「部分正解」「不正解」を判定した。

結果1 ── 文体による正答率の差

全300回の実験結果は、事前の仮説を大きく覆すものであった。文体別の正答率は以下の通りである。

文体正答率正解数不正解数
ジャーナリスト調91.7%555
学術論文調86.7%528
口語/会話調81.7%4911
SEO/LLMO最適化調80.0%4812
箇条書き/構造化80.0%4812

最も高い正答率を記録したのはジャーナリスト調(91.7%)であり、最も低かったのは箇条書き/構造化とSEO/LLMO最適化調(ともに80.0%)であった。「構造化された情報がAIに最適」という一般的な仮説とは逆の結果である。

結果2 ── 事実問題と推論問題の決定的な差

正答率の差は、質問の種類によって劇的に異なることが明らかになった。

質問タイプ正答率正解数不正解数
事実確認問題98.7%1482
推論問題69.3%10446

事実確認問題(「IBMが発表した量子プロセッサの名称は?」等)では、すべての文体で93.3%〜100%の正答率を記録した。つまり、単純な情報抽出タスクにおいて、文体はほとんど影響しない

一方、推論問題(「この技術の戦略的意味は何か?」等)では、文体によって60.0%〜83.3%と23ポイント以上の差が生じた。

文体事実問題推論問題差分
ジャーナリスト調100.0%83.3%-16.7pt
学術論文調100.0%73.3%-26.7pt
口語/会話調93.3%70.0%-23.3pt
SEO/LLMO最適化調100.0%60.0%-40.0pt
箇条書き/構造化100.0%60.0%-40.0pt

この結果は極めて重要な示唆を含む。箇条書きやSEO最適化型の「AIフレンドリー」とされる文体は、推論タスクにおいてむしろ最悪の成績を記録した。物語的な文脈を含むジャーナリスト調が推論タスクで最高性能を示したことは、LLMが「情報の羅列」よりも「文脈に埋め込まれた情報」をより適切に処理できることを示唆している。

結果3 ── 人間可読性とAI精度の相関

日本語テキストの可読性を定量化するため、平均文長、漢字率、カタカナ率から可読性スコアを算出した(スコアが低いほど人間にとって読みやすい)。

文体可読性スコア平均文長漢字率ひらがな率AI正答率
口語/会話調22.831.80.1770.42381.7%
SEO/LLMO最適化調27.633.70.2970.29580.0%
ジャーナリスト調29.637.90.3100.30691.7%
学術論文調45.978.10.3210.29386.7%
箇条書き/構造化54.798.40.3290.08980.0%

人間可読性(可読性スコア)とAI正答率のSpearman順位相関係数を算出したところ、ρ = 0.200という結果が得られた。これはほぼ無相関であり、人間にとって読みやすい文章がAIにとっても理解しやすいわけではなく、その逆も成り立たないことを示している。

口語/会話調は人間にとって最も読みやすい(スコア22.8)が、AIの正答率は81.7%と中程度である。一方、学術論文調は人間にとって読みにくい(スコア45.9)が、AIの正答率は86.7%と比較的高い。最高のAI正答率を記録したジャーナリスト調は、人間可読性としては中程度(スコア29.6)に位置する。

考察 ── なぜ物語がAIの推論を助けるのか

今回の実験結果は、「構造化データがAIに最適」という通説に疑問を投げかける。箇条書きやFAQ形式は情報の位置を明確にするが、情報間の関係性(因果、対比、時系列)を暗黙化する。一方、ジャーナリスト調の物語的記述は、「これに先立ち」「この課題に正面から挑んでいるのが」「覇権争いの地政学も見逃せない」といった文脈的な接続を明示する。

LLMの推論能力は、Transformer アーキテクチャにおける注意機構(Attention)によって実現されている。物語的な文体は、因果関係や対比関係を言語的に明示することで、注意機構が「どの情報とどの情報を関連づけるべきか」を学習しやすくする可能性がある。箇条書きでは情報が独立した単位として並列化されるため、関係性の推論にはより多くの「飛躍」が必要となる。

ただし、本実験にはいくつかの限界がある。第一に、単一モデル(Claude Opus 4.5)のみを対象としており、モデル間の差異は検証できていない。第二に、2テーマ×10事実という限られたデータセットであり、分野やコンテンツの複雑性による影響は未検証である。第三に、人間被験者による主観的可読性評価は実施しておらず、計算指標に基づく推定に留まる。

実務への示唆 ── LLMO時代の文章設計

本実験の結果から、コンテンツ制作者および開発者に対して以下の示唆を提示する。

  • 単純な情報抽出が目的なら、文体は自由に選べる。RAGシステムにおけるチャンク設計やFAQボットの回答テンプレートは、箇条書きでも物語形式でも性能差は小さい。
  • 推論・分析タスクには物語的文脈が有効。AIに「意味を理解させる」ためには、情報間の関係性を言語的に明示する方が効果的である。
  • 「AIフレンドリー」なSEO/LLMO最適化は推論を阻害する可能性がある。キーワード反復やFAQ構造は検索エンジン向けには有効だが、LLMの推論タスクには逆効果となる場合がある。
  • 人間向けとAI向けを分けて書く必要はない。両者の間に相関がないということは、「人間に読みやすい文章はAIには不向き」という懸念が杞憂であることを意味する。ジャーナリスト調のような標準的なプロフェッショナル文体は、人間とAIの両方に適度に機能する。

FAQ

箇条書きがAIに最適ではないのはなぜか?

箇条書きは情報を独立した単位として並列化するため、単純な情報抽出には有効である(事実問題で100%正答)。しかし、推論タスクでは情報間の関係性(因果、対比、時系列)を理解する必要があり、これらの関係性が言語的に明示されていない箇条書きでは性能が低下した(推論問題で60%)。

この結果は他のAIモデルにも当てはまるのか?

本実験はClaude Opus 4.5のみを対象としており、GPT-5.2やGemini 3 Proへの一般化には追加検証が必要である。ただし、主要なLLMはいずれもTransformerアーキテクチャを基盤としており、物語的文脈が推論を助けるメカニズムは共通している可能性が高い。

LLMO(LLM Optimization)はSEOと同じアプローチでよいのか?

本実験の結果は、SEO最適化型の文体(キーワード反復、FAQ構造)がLLMの推論タスクには逆効果となる可能性を示唆している。検索エンジン向けの最適化とLLM向けの最適化は異なるアプローチが必要であり、後者では情報間の関係性を明示する物語的な文脈が有効である。

参考文献