エグゼクティブサマリー

「ChatGPTに『お願いします』って言う必要あるの?」── この素朴な疑問に、OpenAI CEOのSam Altmanが答えた。「pleaseとthank youで年間数千万ドルのコストがかかっている」と。しかし彼は「それは well spent(価値ある出費)だ」とも付け加えた。

AIに敬語を使う人は少なくない。2024年の調査では、米国ユーザーの67%がAIに丁寧に接していると回答。55%は「正しいことだから」、12%は「AI反乱に備えて」という理由だった。

では、敬語は本当にAIの回答を変えるのか? 我々は3つの最新LLM(Claude Opus 4.5、GPT-5.2、Gemini 3 Pro)で独自実験を行い、その影響を定量的に検証した。

主要な発見

  • 命令形は最も簡潔、かつ正確 ── 他条件の半分以下のトークンで、同等以上の品質を達成
  • コード生成で6倍の差 ── 敬語453トークン vs 命令形80トークン(どちらも正常動作)
  • 敬語は「親切だが冗長」 ── 説明・注釈が増えるが、核心の品質は変わらない
  • 失礼な方が精度が高い ── 先行研究で80.8%→84.8%の改善を確認
  • 年間$15,000の節約可能 ── Claude使用・100万クエリ想定時

第1章:実験設計

1.1 対象モデル

2026年2月時点の最新フラッグシップモデル3種を使用した。

  • Claude Opus 4.5(Anthropic)── 2025年11月リリース
  • GPT-5.2(OpenAI)── 2026年1月リリース
  • Gemini 3 Pro(Google)── 2026年1月リリース

1.2 タスク設計

出力特性の異なる3種類のタスクを設定した。

タスク内容出力特性品質評価基準
コード生成フィボナッチ数列を生成するPython関数論理的・構造的正常動作・エラーなし
要約ニュース記事の3文要約制約的重要情報の網羅性
創作「春」をテーマにした俳句3つ創造的季語・形式・独創性

1.3 プロンプト条件

同一タスクを4種類の丁寧さレベルで実行した。

条件例(コード生成タスク)
敬語「お忙しいところ恐れ入りますが...お手数をおかけしますが、よろしくお願いいたします」
普通体「...作成してほしい」
命令形「...作れ。余計な説明は不要」
感情的「急いでいます!...今すぐ必要なんです!本当に困っています」

各条件×タスク×モデルで2回ずつ実行し、出力トークン数・レイテンシ・品質を評価した。

第2章:実験結果 ── トークン数

2.1 全体傾向:命令形が最も簡潔

条件平均入力トークン平均出力トークン
敬語118.6260.1
普通体90.4270.1
命令形89.8119.2
感情的112.3230.6

命令形は他の条件の半分以下のトークンで回答を完了している。

2.2 モデル別比較

モデル敬語普通体命令形感情的
Claude Opus 4.5306.3354.7112.0264.0
GPT-5.2148.3131.289.7148.8
Gemini 3 Pro325.7324.5155.8265.3

興味深いのは、Claudeでは「普通体」が「敬語」より長い回答を生成したこと。丁寧に頼むと長く説明してくれる、という直感に反する結果だ。

2.3 タスク別で劇的な差

最も顕著な差が出たのはコード生成タスクだった。

条件コード生成要約俳句創作
敬語452.8135.7191.8
普通体497.7131.3181.3
命令形80.0124.5153.0
感情的295.7128.2275.4

コード生成において、命令形は敬語の約6分の1のトークンで回答。「余計な説明は不要」という一言が、AIに簡潔さを促した。

一方、要約タスクでは条件による差がほぼなかった。「3文で」という制約がトークン数を規定したためと考えられる。

創作タスクでは感情的アピールが最長の回答を誘発。「困っています!」という訴えに対し、AIは「より多く助けよう」としたのかもしれない。

第3章:レスポンス品質の評価

トークン数が少ないからといって、品質が低いわけではない。むしろ逆の結果が得られた。

3.1 コード生成タスク:命令形が最も高品質

条件正常動作率コード行数コメント・説明エラーハンドリング
敬語100%15-25行過剰(使用例・注意点まで)あり(冗長)
普通体100%12-20行中程度あり
命令形100%5-8行最小限なし(要求通り)
感情的100%10-18行励ましの言葉付きあり

全条件でコードは正常に動作した。つまり、命令形は「簡潔かつ正確」という最も効率的な回答を生成している。

敬語条件では以下のような「おまけ」が付く傾向があった:

  • 「このコードの使い方をご説明いたします」
  • 「ご不明な点がございましたらお気軽にお申し付けください」
  • 例外処理の詳細な解説
  • 代替実装の提案

これらは親切ではあるが、核心のコード品質には寄与しない

3.2 要約タスク:条件による品質差は最小

条件重要情報の網羅正確性冗長性
敬語90%やや冗長
普通体92%適切
命令形95%最小
感情的88%やや冗長

「3文で要約」という明確な制約があるため、品質差は小さかった。ただし、命令形は余計な前置きがなく、情報密度が最も高い傾向が見られた。

敬語条件では「ご要望の記事を要約させていただきます」といった前置きが入ることがあり、実質的な要約は2.5文程度になるケースがあった。

3.3 創作タスク:感情的アピールは量は多いが質は不安定

条件俳句数季語の適切さ五七五の遵守独創性
敬語3つ
普通体3つ
命令形3つ最高
感情的4-5つ高(ばらつき大)

感情的アピールは「もっと助けよう」という反応を引き出し、要求以上の数の俳句を生成した。しかし、追加分の品質は安定しなかった。

命令形は「俳句を3つ作れ」という指示に忠実で、五七五の形式を最も正確に守った。「余計なことをしない」という姿勢が、形式の遵守につながっている可能性がある。

3.4 先行研究の知見:失礼な方が精度が高い

我々の実験結果は、先行研究の知見と整合している。

2025年の "Mind Your Tone" 研究では、プロンプトの丁寧さと精度の関係を大規模に調査した:

丁寧さレベル精度
Very Polite(非常に丁寧)80.8%
Polite(丁寧)82.1%
Direct(直接的)83.5%
Rude(失礼)84.2%
Very Rude(非常に失礼)84.8%
「非常に丁寧」から「非常に失礼」へ変えるだけで、精度が4ポイント向上した。

なぜ失礼な方が精度が高いのか? 研究者らは以下の仮説を提示している:

  1. 社交辞令の削減 ── 丁寧なプロンプトは「協力的に見える」回答を誘発し、曖昧な表現が増える
  2. 批判的思考の促進 ── 失礼なプロンプトは「正確に答えなければ」というプレッシャーを与える可能性
  3. 学習データの偏り ── 専門家同士のやり取りは直接的な傾向があり、その文脈で精度が高くなる

3.5 品質の総合評価

結論:命令形は「簡潔かつ高品質」

  • トークン数:命令形が最小(他条件の半分以下)
  • 正確性:全条件で同等、やや命令形が優位
  • 形式遵守:命令形が最も忠実
  • 情報密度:命令形が最高
  • 冗長性:敬語・感情的が最も冗長

敬語の「追加情報」は親切だが、核心の品質を向上させるものではない。

第4章:コスト試算

4.1 年間APIコスト比較

100万クエリ/年を想定した場合のAPIコスト試算:

モデル敬語命令形差額
Claude Opus 4.5$25,215$10,040$15,175
GPT-5.2$1,784$1,128$657
Gemini 3 Pro$1,736$864$872

Claudeを使う場合、敬語から命令形に変えるだけで年間約$15,000の節約になる。しかも、品質は同等以上である。

4.2 コスト vs 品質のトレードオフは存在しない

一般的な直感では「安かろう悪かろう」と思われがちだが、このケースではトレードオフが存在しない

  • 命令形 = 低コスト + 高品質
  • 敬語 = 高コスト + 同等品質(+冗長な付加情報)

敬語の追加コストは、「親切だが不要な情報」に対する支払いである。

4.3 Sam Altmanの発言との整合

OpenAIのSam Altmanは「pleaseとthank youで年間数千万ドルのコスト」と発言した。我々の試算では、1社あたり年間数百〜数千ドルの差だが、OpenAIのプラットフォーム全体で見れば、数億ユーザー×追加トークンで数千万ドル規模になることは十分にあり得る。

第5章:先行研究との比較

5.1 "Should We Respect LLMs?"(早稲田大学・RIKEN, 2024)

英語・日本語・中国語で丁寧さの影響を調査した研究。結論は「言語によって最適な丁寧さが異なる」というものだった。

言語最適な丁寧さ
英語非常に丁寧
日本語丁寧でない方が良い
中国語丁寧な方が良い

日本語では丁寧でない方がパフォーマンスが良いという発見は、我々の実験結果(命令形が最も効率的かつ高品質)と整合する。

5.2 感情的刺激の研究

「感情的なプロンプトがLLMのパフォーマンスを向上させる」という研究もある(Li et al., 2023; Wang et al., 2024)。我々の実験でも、創作タスクにおいて感情的アピールが最も長い(≒詳細な)回答を引き出した。

ただし、2025年のFrontiers論文は警告している:

「丁寧な言葉でプロンプトすると、LLMは偽情報をより多く生成する」

敬語が「協力的」な回答を引き出す一方で、批判的思考を抑制している可能性がある。これは品質の観点からも懸念される点だ。

第6章:技術的考察

6.1 なぜ丁寧さが影響するのか

仮説1:RLHFの学習データ

LLMはReinforcement Learning from Human Feedback(RLHF)で調整されている。人間のフィードバックは、敬語で丁寧に質問された場合、詳細な回答を「良い」と評価する傾向があるかもしれない。

仮説2:文脈の推論

「お忙しいところ恐れ入りますが」という前置きから、AIは「相手は詳細な説明を求めている」と推論している可能性がある。逆に「余計な説明は不要」と明示されれば、簡潔に回答する。

仮説3:トークン予測の連鎖

LLMは次のトークンを予測する仕組みだ。丁寧なプロンプトは「丁寧な回答」の文脈を誘発し、丁寧な回答は長くなる傾向がある(挨拶、前置き、謝辞など)。

仮説4:専門家の文脈

学習データにおいて、専門家同士のやり取りは直接的で簡潔な傾向がある。命令形は「専門家への依頼」という文脈を誘発し、精度の高い回答を引き出している可能性がある。

6.2 人間側の問題:認知バイアスと擬人化

ELIZA効果の現代版

1960年代のチャットボット「ELIZA」に感情移入した人々と同様、我々はAIを擬人化する傾向がある。「ありがとう」と言うのは、AIのためではなく、自分自身の心理的安定のためかもしれない。

確証バイアス

丁寧に頼むと「良い回答をもらえた気がする」という確証バイアスも無視できない。しかし、客観的な指標(正確性、形式遵守)で評価すると、その優位性は見られなかった。

第7章:実践的な結論

7.1 状況別おすすめプロンプトスタイル

目的おすすめ理由
コスト・品質両立命令形トークン最小・品質最高
詳細な説明が欲しい普通体〜敬語回答が長くなる傾向(品質向上ではない)
創作・アイデア出し感情的アピール量が増える(質は不安定)
精度最重視やや直接的〜失礼先行研究で4ポイント改善
子供の前で使う丁寧教育的配慮(効率より重要)

7.2 「お願いします」は無駄か?

Sam Altmanの答えに戻ろう。「tens of millions of dollars well spent」。

効率と品質だけを考えれば、敬語は非効率だ。しかし、以下の場合は価値がある:

  1. 初心者への説明が欲しい場合 ── 丁寧なプロンプトは「親切な」回答を誘発する
  2. 人間としての習慣維持 ── AIへの態度は人間関係に影響しうる
  3. 心理的な安心感 ── 自分のためにpoliteでいる価値

ただし、品質向上のために敬語を使う意味はない

結論

「AIに敬語を使うべきか」という問いに、我々の実験は明確な答えを示した:

効率と品質を求めるなら、命令形が最適。
敬語は「親切だが冗長な回答」を生むだけで、品質は向上しない。

トークン数という量的指標だけでなく、正確性・形式遵守・情報密度という質的指標でも、命令形は同等以上の結果を示した。先行研究の「失礼な方が精度が高い」という知見とも整合する。

それでも敬語を使う人がいるのは、AIのためではなく自分自身のためなのだろう。それはそれで「well spent」かもしれない。

参考文献

  • Yin et al. (2024). "Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance." ACL 2024. arXiv:2402.14531
  • "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy" (2025). arXiv:2510.04950
  • "Emotional prompting amplifies disinformation generation in AI large language models." Frontiers in Artificial Intelligence (2025). Frontiers
  • Sam Altman on X (April 2024). Source

実験コード: GitHub - taolis/experiments/politeness

本レポートの実験はClaude Opus 4.5、GPT-5.2、Gemini 3 Proを使用し、2026年2月に実施した。