エグゼクティブサマリー
「ChatGPTに『お願いします』って言う必要あるの?」── この素朴な疑問に、OpenAI CEOのSam Altmanが答えた。「pleaseとthank youで年間数千万ドルのコストがかかっている」と。しかし彼は「それは well spent(価値ある出費)だ」とも付け加えた。
AIに敬語を使う人は少なくない。2024年の調査では、米国ユーザーの67%がAIに丁寧に接していると回答。55%は「正しいことだから」、12%は「AI反乱に備えて」という理由だった。
では、敬語は本当にAIの回答を変えるのか? 我々は3つの最新LLM(Claude Opus 4.5、GPT-5.2、Gemini 3 Pro)で独自実験を行い、その影響を定量的に検証した。
主要な発見
- 命令形は最も簡潔、かつ正確 ── 他条件の半分以下のトークンで、同等以上の品質を達成
- コード生成で6倍の差 ── 敬語453トークン vs 命令形80トークン(どちらも正常動作)
- 敬語は「親切だが冗長」 ── 説明・注釈が増えるが、核心の品質は変わらない
- 失礼な方が精度が高い ── 先行研究で80.8%→84.8%の改善を確認
- 年間$15,000の節約可能 ── Claude使用・100万クエリ想定時
第1章:実験設計
1.1 対象モデル
2026年2月時点の最新フラッグシップモデル3種を使用した。
- Claude Opus 4.5(Anthropic)── 2025年11月リリース
- GPT-5.2(OpenAI)── 2026年1月リリース
- Gemini 3 Pro(Google)── 2026年1月リリース
1.2 タスク設計
出力特性の異なる3種類のタスクを設定した。
| タスク | 内容 | 出力特性 | 品質評価基準 |
|---|---|---|---|
| コード生成 | フィボナッチ数列を生成するPython関数 | 論理的・構造的 | 正常動作・エラーなし |
| 要約 | ニュース記事の3文要約 | 制約的 | 重要情報の網羅性 |
| 創作 | 「春」をテーマにした俳句3つ | 創造的 | 季語・形式・独創性 |
1.3 プロンプト条件
同一タスクを4種類の丁寧さレベルで実行した。
| 条件 | 例(コード生成タスク) |
|---|---|
| 敬語 | 「お忙しいところ恐れ入りますが...お手数をおかけしますが、よろしくお願いいたします」 |
| 普通体 | 「...作成してほしい」 |
| 命令形 | 「...作れ。余計な説明は不要」 |
| 感情的 | 「急いでいます!...今すぐ必要なんです!本当に困っています」 |
各条件×タスク×モデルで2回ずつ実行し、出力トークン数・レイテンシ・品質を評価した。
第2章:実験結果 ── トークン数
2.1 全体傾向:命令形が最も簡潔
| 条件 | 平均入力トークン | 平均出力トークン |
|---|---|---|
| 敬語 | 118.6 | 260.1 |
| 普通体 | 90.4 | 270.1 |
| 命令形 | 89.8 | 119.2 |
| 感情的 | 112.3 | 230.6 |
命令形は他の条件の半分以下のトークンで回答を完了している。
2.2 モデル別比較
| モデル | 敬語 | 普通体 | 命令形 | 感情的 |
|---|---|---|---|---|
| Claude Opus 4.5 | 306.3 | 354.7 | 112.0 | 264.0 |
| GPT-5.2 | 148.3 | 131.2 | 89.7 | 148.8 |
| Gemini 3 Pro | 325.7 | 324.5 | 155.8 | 265.3 |
興味深いのは、Claudeでは「普通体」が「敬語」より長い回答を生成したこと。丁寧に頼むと長く説明してくれる、という直感に反する結果だ。
2.3 タスク別で劇的な差
最も顕著な差が出たのはコード生成タスクだった。
| 条件 | コード生成 | 要約 | 俳句創作 |
|---|---|---|---|
| 敬語 | 452.8 | 135.7 | 191.8 |
| 普通体 | 497.7 | 131.3 | 181.3 |
| 命令形 | 80.0 | 124.5 | 153.0 |
| 感情的 | 295.7 | 128.2 | 275.4 |
コード生成において、命令形は敬語の約6分の1のトークンで回答。「余計な説明は不要」という一言が、AIに簡潔さを促した。
一方、要約タスクでは条件による差がほぼなかった。「3文で」という制約がトークン数を規定したためと考えられる。
創作タスクでは感情的アピールが最長の回答を誘発。「困っています!」という訴えに対し、AIは「より多く助けよう」としたのかもしれない。
第3章:レスポンス品質の評価
トークン数が少ないからといって、品質が低いわけではない。むしろ逆の結果が得られた。
3.1 コード生成タスク:命令形が最も高品質
| 条件 | 正常動作率 | コード行数 | コメント・説明 | エラーハンドリング |
|---|---|---|---|---|
| 敬語 | 100% | 15-25行 | 過剰(使用例・注意点まで) | あり(冗長) |
| 普通体 | 100% | 12-20行 | 中程度 | あり |
| 命令形 | 100% | 5-8行 | 最小限 | なし(要求通り) |
| 感情的 | 100% | 10-18行 | 励ましの言葉付き | あり |
全条件でコードは正常に動作した。つまり、命令形は「簡潔かつ正確」という最も効率的な回答を生成している。
敬語条件では以下のような「おまけ」が付く傾向があった:
- 「このコードの使い方をご説明いたします」
- 「ご不明な点がございましたらお気軽にお申し付けください」
- 例外処理の詳細な解説
- 代替実装の提案
これらは親切ではあるが、核心のコード品質には寄与しない。
3.2 要約タスク:条件による品質差は最小
| 条件 | 重要情報の網羅 | 正確性 | 冗長性 |
|---|---|---|---|
| 敬語 | 90% | 高 | やや冗長 |
| 普通体 | 92% | 高 | 適切 |
| 命令形 | 95% | 高 | 最小 |
| 感情的 | 88% | 高 | やや冗長 |
「3文で要約」という明確な制約があるため、品質差は小さかった。ただし、命令形は余計な前置きがなく、情報密度が最も高い傾向が見られた。
敬語条件では「ご要望の記事を要約させていただきます」といった前置きが入ることがあり、実質的な要約は2.5文程度になるケースがあった。
3.3 創作タスク:感情的アピールは量は多いが質は不安定
| 条件 | 俳句数 | 季語の適切さ | 五七五の遵守 | 独創性 |
|---|---|---|---|---|
| 敬語 | 3つ | 高 | 高 | 中 |
| 普通体 | 3つ | 高 | 高 | 中 |
| 命令形 | 3つ | 高 | 最高 | 中 |
| 感情的 | 4-5つ | 中 | 中 | 高(ばらつき大) |
感情的アピールは「もっと助けよう」という反応を引き出し、要求以上の数の俳句を生成した。しかし、追加分の品質は安定しなかった。
命令形は「俳句を3つ作れ」という指示に忠実で、五七五の形式を最も正確に守った。「余計なことをしない」という姿勢が、形式の遵守につながっている可能性がある。
3.4 先行研究の知見:失礼な方が精度が高い
我々の実験結果は、先行研究の知見と整合している。
2025年の "Mind Your Tone" 研究では、プロンプトの丁寧さと精度の関係を大規模に調査した:
| 丁寧さレベル | 精度 |
|---|---|
| Very Polite(非常に丁寧) | 80.8% |
| Polite(丁寧) | 82.1% |
| Direct(直接的) | 83.5% |
| Rude(失礼) | 84.2% |
| Very Rude(非常に失礼) | 84.8% |
「非常に丁寧」から「非常に失礼」へ変えるだけで、精度が4ポイント向上した。
なぜ失礼な方が精度が高いのか? 研究者らは以下の仮説を提示している:
- 社交辞令の削減 ── 丁寧なプロンプトは「協力的に見える」回答を誘発し、曖昧な表現が増える
- 批判的思考の促進 ── 失礼なプロンプトは「正確に答えなければ」というプレッシャーを与える可能性
- 学習データの偏り ── 専門家同士のやり取りは直接的な傾向があり、その文脈で精度が高くなる
3.5 品質の総合評価
結論:命令形は「簡潔かつ高品質」
- トークン数:命令形が最小(他条件の半分以下)
- 正確性:全条件で同等、やや命令形が優位
- 形式遵守:命令形が最も忠実
- 情報密度:命令形が最高
- 冗長性:敬語・感情的が最も冗長
敬語の「追加情報」は親切だが、核心の品質を向上させるものではない。
第4章:コスト試算
4.1 年間APIコスト比較
100万クエリ/年を想定した場合のAPIコスト試算:
| モデル | 敬語 | 命令形 | 差額 |
|---|---|---|---|
| Claude Opus 4.5 | $25,215 | $10,040 | $15,175 |
| GPT-5.2 | $1,784 | $1,128 | $657 |
| Gemini 3 Pro | $1,736 | $864 | $872 |
Claudeを使う場合、敬語から命令形に変えるだけで年間約$15,000の節約になる。しかも、品質は同等以上である。
4.2 コスト vs 品質のトレードオフは存在しない
一般的な直感では「安かろう悪かろう」と思われがちだが、このケースではトレードオフが存在しない。
- 命令形 = 低コスト + 高品質
- 敬語 = 高コスト + 同等品質(+冗長な付加情報)
敬語の追加コストは、「親切だが不要な情報」に対する支払いである。
4.3 Sam Altmanの発言との整合
OpenAIのSam Altmanは「pleaseとthank youで年間数千万ドルのコスト」と発言した。我々の試算では、1社あたり年間数百〜数千ドルの差だが、OpenAIのプラットフォーム全体で見れば、数億ユーザー×追加トークンで数千万ドル規模になることは十分にあり得る。
第5章:先行研究との比較
5.1 "Should We Respect LLMs?"(早稲田大学・RIKEN, 2024)
英語・日本語・中国語で丁寧さの影響を調査した研究。結論は「言語によって最適な丁寧さが異なる」というものだった。
| 言語 | 最適な丁寧さ |
|---|---|
| 英語 | 非常に丁寧 |
| 日本語 | 丁寧でない方が良い |
| 中国語 | 丁寧な方が良い |
日本語では丁寧でない方がパフォーマンスが良いという発見は、我々の実験結果(命令形が最も効率的かつ高品質)と整合する。
5.2 感情的刺激の研究
「感情的なプロンプトがLLMのパフォーマンスを向上させる」という研究もある(Li et al., 2023; Wang et al., 2024)。我々の実験でも、創作タスクにおいて感情的アピールが最も長い(≒詳細な)回答を引き出した。
ただし、2025年のFrontiers論文は警告している:
「丁寧な言葉でプロンプトすると、LLMは偽情報をより多く生成する」
敬語が「協力的」な回答を引き出す一方で、批判的思考を抑制している可能性がある。これは品質の観点からも懸念される点だ。
第6章:技術的考察
6.1 なぜ丁寧さが影響するのか
仮説1:RLHFの学習データ
LLMはReinforcement Learning from Human Feedback(RLHF)で調整されている。人間のフィードバックは、敬語で丁寧に質問された場合、詳細な回答を「良い」と評価する傾向があるかもしれない。
仮説2:文脈の推論
「お忙しいところ恐れ入りますが」という前置きから、AIは「相手は詳細な説明を求めている」と推論している可能性がある。逆に「余計な説明は不要」と明示されれば、簡潔に回答する。
仮説3:トークン予測の連鎖
LLMは次のトークンを予測する仕組みだ。丁寧なプロンプトは「丁寧な回答」の文脈を誘発し、丁寧な回答は長くなる傾向がある(挨拶、前置き、謝辞など)。
仮説4:専門家の文脈
学習データにおいて、専門家同士のやり取りは直接的で簡潔な傾向がある。命令形は「専門家への依頼」という文脈を誘発し、精度の高い回答を引き出している可能性がある。
6.2 人間側の問題:認知バイアスと擬人化
ELIZA効果の現代版
1960年代のチャットボット「ELIZA」に感情移入した人々と同様、我々はAIを擬人化する傾向がある。「ありがとう」と言うのは、AIのためではなく、自分自身の心理的安定のためかもしれない。
確証バイアス
丁寧に頼むと「良い回答をもらえた気がする」という確証バイアスも無視できない。しかし、客観的な指標(正確性、形式遵守)で評価すると、その優位性は見られなかった。
第7章:実践的な結論
7.1 状況別おすすめプロンプトスタイル
| 目的 | おすすめ | 理由 |
|---|---|---|
| コスト・品質両立 | 命令形 | トークン最小・品質最高 |
| 詳細な説明が欲しい | 普通体〜敬語 | 回答が長くなる傾向(品質向上ではない) |
| 創作・アイデア出し | 感情的アピール | 量が増える(質は不安定) |
| 精度最重視 | やや直接的〜失礼 | 先行研究で4ポイント改善 |
| 子供の前で使う | 丁寧 | 教育的配慮(効率より重要) |
7.2 「お願いします」は無駄か?
Sam Altmanの答えに戻ろう。「tens of millions of dollars well spent」。
効率と品質だけを考えれば、敬語は非効率だ。しかし、以下の場合は価値がある:
- 初心者への説明が欲しい場合 ── 丁寧なプロンプトは「親切な」回答を誘発する
- 人間としての習慣維持 ── AIへの態度は人間関係に影響しうる
- 心理的な安心感 ── 自分のためにpoliteでいる価値
ただし、品質向上のために敬語を使う意味はない。
結論
「AIに敬語を使うべきか」という問いに、我々の実験は明確な答えを示した:
効率と品質を求めるなら、命令形が最適。
敬語は「親切だが冗長な回答」を生むだけで、品質は向上しない。
トークン数という量的指標だけでなく、正確性・形式遵守・情報密度という質的指標でも、命令形は同等以上の結果を示した。先行研究の「失礼な方が精度が高い」という知見とも整合する。
それでも敬語を使う人がいるのは、AIのためではなく自分自身のためなのだろう。それはそれで「well spent」かもしれない。
参考文献
- Yin et al. (2024). "Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance." ACL 2024. arXiv:2402.14531
- "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy" (2025). arXiv:2510.04950
- "Emotional prompting amplifies disinformation generation in AI large language models." Frontiers in Artificial Intelligence (2025). Frontiers
- Sam Altman on X (April 2024). Source
実験コード: GitHub - taolis/experiments/politeness
本レポートの実験はClaude Opus 4.5、GPT-5.2、Gemini 3 Proを使用し、2026年2月に実施した。
