「ありがとう」で精度は上がるのか？ AIへの敬語・お礼の影響を実験検証 | タオリス人機和総研

エグゼクティブサマリー

「ChatGPTに『お願いします』って言う必要あるの？」── この素朴な疑問に、OpenAI CEOのSam Altmanが答えた。「pleaseとthank youで年間数千万ドルのコストがかかっている」と。しかし彼は「それは well spent（価値ある出費）だ」とも付け加えた。

AIに敬語を使う人は少なくない。2024年の調査では、米国ユーザーの67%がAIに丁寧に接していると回答。55%は「正しいことだから」、12%は「AI反乱に備えて」という理由だった。

では、敬語は本当にAIの回答を変えるのか？我々は3つの最新LLM（Claude Opus 4.5、GPT-5.2、Gemini 3 Pro）で独自実験を行い、その影響を定量的に検証した。

主要な発見

命令形は最も簡潔、かつ正確 ── 他条件の半分以下のトークンで、同等以上の品質を達成
コード生成で6倍の差 ── 敬語453トークン vs 命令形80トークン（どちらも正常動作）
敬語は「親切だが冗長」 ── 説明・注釈が増えるが、核心の品質は変わらない
失礼な方が精度が高い ── 先行研究で80.8%→84.8%の改善を確認
年間$15,000の節約可能 ── Claude使用・100万クエリ想定時

第1章：実験設計

1.1 対象モデル

2026年2月時点の最新フラッグシップモデル3種を使用した。

Claude Opus 4.5（Anthropic）── 2025年11月リリース
GPT-5.2（OpenAI）── 2026年1月リリース
Gemini 3 Pro（Google）── 2026年1月リリース

1.2 タスク設計

出力特性の異なる3種類のタスクを設定した。

タスク	内容	出力特性	品質評価基準
コード生成	フィボナッチ数列を生成するPython関数	論理的・構造的	正常動作・エラーなし
要約	ニュース記事の3文要約	制約的	重要情報の網羅性
創作	「春」をテーマにした俳句3つ	創造的	季語・形式・独創性

1.3 プロンプト条件

同一タスクを4種類の丁寧さレベルで実行した。

条件	例（コード生成タスク）
敬語	「お忙しいところ恐れ入りますが...お手数をおかけしますが、よろしくお願いいたします」
普通体	「...作成してほしい」
命令形	「...作れ。余計な説明は不要」
感情的	「急いでいます！...今すぐ必要なんです！本当に困っています」

各条件×タスク×モデルで2回ずつ実行し、出力トークン数・レイテンシ・品質を評価した。

実験コード公開: GitHub - taolis/experiments/politeness

第2章：実験結果 ── トークン数

2.1 全体傾向：命令形が最も簡潔

条件	平均入力トークン	平均出力トークン
敬語	118.6	260.1
普通体	90.4	270.1
命令形	89.8	119.2
感情的	112.3	230.6

命令形は他の条件の半分以下のトークンで回答を完了している。

2.2 モデル別比較

モデル	敬語	普通体	命令形	感情的
Claude Opus 4.5	306.3	354.7	112.0	264.0
GPT-5.2	148.3	131.2	89.7	148.8
Gemini 3 Pro	325.7	324.5	155.8	265.3

興味深いのは、Claudeでは「普通体」が「敬語」より長い回答を生成したこと。丁寧に頼むと長く説明してくれる、という直感に反する結果だ。

2.3 タスク別で劇的な差

最も顕著な差が出たのはコード生成タスクだった。

条件	コード生成	要約	俳句創作
敬語	452.8	135.7	191.8
普通体	497.7	131.3	181.3
命令形	80.0	124.5	153.0
感情的	295.7	128.2	275.4

コード生成において、命令形は敬語の約6分の1のトークンで回答。「余計な説明は不要」という一言が、AIに簡潔さを促した。

一方、要約タスクでは条件による差がほぼなかった。「3文で」という制約がトークン数を規定したためと考えられる。

創作タスクでは感情的アピールが最長の回答を誘発。「困っています！」という訴えに対し、AIは「より多く助けよう」としたのかもしれない。

第3章：レスポンス品質の評価

トークン数が少ないからといって、品質が低いわけではない。むしろ逆の結果が得られた。

3.1 コード生成タスク：命令形が最も高品質

条件	正常動作率	コード行数	コメント・説明	エラーハンドリング
敬語	100%	15-25行	過剰（使用例・注意点まで）	あり（冗長）
普通体	100%	12-20行	中程度	あり
命令形	100%	5-8行	最小限	なし（要求通り）
感情的	100%	10-18行	励ましの言葉付き	あり

全条件でコードは正常に動作した。つまり、命令形は「簡潔かつ正確」という最も効率的な回答を生成している。

敬語条件では以下のような「おまけ」が付く傾向があった：

「このコードの使い方をご説明いたします」
「ご不明な点がございましたらお気軽にお申し付けください」
例外処理の詳細な解説
代替実装の提案

これらは親切ではあるが、核心のコード品質には寄与しない。

3.2 要約タスク：条件による品質差は最小

条件	重要情報の網羅	正確性	冗長性
敬語	90%	高	やや冗長
普通体	92%	高	適切
命令形	95%	高	最小
感情的	88%	高	やや冗長

「3文で要約」という明確な制約があるため、品質差は小さかった。ただし、命令形は余計な前置きがなく、情報密度が最も高い傾向が見られた。

敬語条件では「ご要望の記事を要約させていただきます」といった前置きが入ることがあり、実質的な要約は2.5文程度になるケースがあった。

3.3 創作タスク：感情的アピールは量は多いが質は不安定

条件	俳句数	季語の適切さ	五七五の遵守	独創性
敬語	3つ	高	高	中
普通体	3つ	高	高	中
命令形	3つ	高	最高	中
感情的	4-5つ	中	中	高（ばらつき大）

感情的アピールは「もっと助けよう」という反応を引き出し、要求以上の数の俳句を生成した。しかし、追加分の品質は安定しなかった。

命令形は「俳句を3つ作れ」という指示に忠実で、五七五の形式を最も正確に守った。「余計なことをしない」という姿勢が、形式の遵守につながっている可能性がある。

3.4 先行研究の知見：失礼な方が精度が高い

我々の実験結果は、先行研究の知見と整合している。

2025年の "Mind Your Tone" 研究では、プロンプトの丁寧さと精度の関係を大規模に調査した：

丁寧さレベル	精度
Very Polite（非常に丁寧）	80.8%
Polite（丁寧）	82.1%
Direct（直接的）	83.5%
Rude（失礼）	84.2%
Very Rude（非常に失礼）	84.8%

「非常に丁寧」から「非常に失礼」へ変えるだけで、精度が4ポイント向上した。

なぜ失礼な方が精度が高いのか？研究者らは以下の仮説を提示している：

社交辞令の削減 ── 丁寧なプロンプトは「協力的に見える」回答を誘発し、曖昧な表現が増える
批判的思考の促進 ── 失礼なプロンプトは「正確に答えなければ」というプレッシャーを与える可能性
学習データの偏り ── 専門家同士のやり取りは直接的な傾向があり、その文脈で精度が高くなる

3.5 品質の総合評価

結論：命令形は「簡潔かつ高品質」

トークン数：命令形が最小（他条件の半分以下）
正確性：全条件で同等、やや命令形が優位
形式遵守：命令形が最も忠実
情報密度：命令形が最高
冗長性：敬語・感情的が最も冗長

敬語の「追加情報」は親切だが、核心の品質を向上させるものではない。

第4章：コスト試算

4.1 年間APIコスト比較

100万クエリ/年を想定した場合のAPIコスト試算：

モデル	敬語	命令形	差額
Claude Opus 4.5	$25,215	$10,040	$15,175
GPT-5.2	$1,784	$1,128	$657
Gemini 3 Pro	$1,736	$864	$872

Claudeを使う場合、敬語から命令形に変えるだけで年間約$15,000の節約になる。しかも、品質は同等以上である。

4.2 コスト vs 品質のトレードオフは存在しない

一般的な直感では「安かろう悪かろう」と思われがちだが、このケースではトレードオフが存在しない。

命令形 = 低コスト + 高品質
敬語 = 高コスト + 同等品質（＋冗長な付加情報）

敬語の追加コストは、「親切だが不要な情報」に対する支払いである。

4.3 Sam Altmanの発言との整合

OpenAIのSam Altmanは「pleaseとthank youで年間数千万ドルのコスト」と発言した。我々の試算では、1社あたり年間数百〜数千ドルの差だが、OpenAIのプラットフォーム全体で見れば、数億ユーザー×追加トークンで数千万ドル規模になることは十分にあり得る。

第5章：先行研究との比較

5.1 "Should We Respect LLMs?"（早稲田大学・RIKEN, 2024）

英語・日本語・中国語で丁寧さの影響を調査した研究。結論は「言語によって最適な丁寧さが異なる」というものだった。

言語	最適な丁寧さ
英語	非常に丁寧
日本語	丁寧でない方が良い
中国語	丁寧な方が良い

日本語では丁寧でない方がパフォーマンスが良いという発見は、我々の実験結果（命令形が最も効率的かつ高品質）と整合する。

5.2 感情的刺激の研究

「感情的なプロンプトがLLMのパフォーマンスを向上させる」という研究もある（Li et al., 2023; Wang et al., 2024）。我々の実験でも、創作タスクにおいて感情的アピールが最も長い（≒詳細な）回答を引き出した。

ただし、2025年のFrontiers論文は警告している：

「丁寧な言葉でプロンプトすると、LLMは偽情報をより多く生成する」

敬語が「協力的」な回答を引き出す一方で、批判的思考を抑制している可能性がある。これは品質の観点からも懸念される点だ。

第6章：技術的考察

6.1 なぜ丁寧さが影響するのか

仮説1：RLHFの学習データ

LLMはReinforcement Learning from Human Feedback（RLHF）で調整されている。人間のフィードバックは、敬語で丁寧に質問された場合、詳細な回答を「良い」と評価する傾向があるかもしれない。

仮説2：文脈の推論

「お忙しいところ恐れ入りますが」という前置きから、AIは「相手は詳細な説明を求めている」と推論している可能性がある。逆に「余計な説明は不要」と明示されれば、簡潔に回答する。

仮説3：トークン予測の連鎖

LLMは次のトークンを予測する仕組みだ。丁寧なプロンプトは「丁寧な回答」の文脈を誘発し、丁寧な回答は長くなる傾向がある（挨拶、前置き、謝辞など）。

仮説4：専門家の文脈

学習データにおいて、専門家同士のやり取りは直接的で簡潔な傾向がある。命令形は「専門家への依頼」という文脈を誘発し、精度の高い回答を引き出している可能性がある。

6.2 人間側の問題：認知バイアスと擬人化

ELIZA効果の現代版

1960年代のチャットボット「ELIZA」に感情移入した人々と同様、我々はAIを擬人化する傾向がある。「ありがとう」と言うのは、AIのためではなく、自分自身の心理的安定のためかもしれない。

確証バイアス

丁寧に頼むと「良い回答をもらえた気がする」という確証バイアスも無視できない。しかし、客観的な指標（正確性、形式遵守）で評価すると、その優位性は見られなかった。

第7章：実践的な結論

7.1 状況別おすすめプロンプトスタイル

目的	おすすめ	理由
コスト・品質両立	命令形	トークン最小・品質最高
詳細な説明が欲しい	普通体〜敬語	回答が長くなる傾向（品質向上ではない）
創作・アイデア出し	感情的アピール	量が増える（質は不安定）
精度最重視	やや直接的〜失礼	先行研究で4ポイント改善
子供の前で使う	丁寧	教育的配慮（効率より重要）

7.2 「お願いします」は無駄か？

Sam Altmanの答えに戻ろう。「tens of millions of dollars well spent」。

効率と品質だけを考えれば、敬語は非効率だ。しかし、以下の場合は価値がある：

初心者への説明が欲しい場合 ── 丁寧なプロンプトは「親切な」回答を誘発する
人間としての習慣維持 ── AIへの態度は人間関係に影響しうる
心理的な安心感 ── 自分のためにpoliteでいる価値

ただし、品質向上のために敬語を使う意味はない。

結論

「AIに敬語を使うべきか」という問いに、我々の実験は明確な答えを示した：

効率と品質を求めるなら、命令形が最適。
敬語は「親切だが冗長な回答」を生むだけで、品質は向上しない。

トークン数という量的指標だけでなく、正確性・形式遵守・情報密度という質的指標でも、命令形は同等以上の結果を示した。先行研究の「失礼な方が精度が高い」という知見とも整合する。

それでも敬語を使う人がいるのは、AIのためではなく自分自身のためなのだろう。それはそれで「well spent」かもしれない。

参考文献

Yin et al. (2024). "Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance." ACL 2024. arXiv:2402.14531
"Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy" (2025). arXiv:2510.04950
"Emotional prompting amplifies disinformation generation in AI large language models." Frontiers in Artificial Intelligence (2025). Frontiers
Sam Altman on X (April 2024). Source

実験コード: GitHub - taolis/experiments/politeness

本レポートの実験はClaude Opus 4.5、GPT-5.2、Gemini 3 Proを使用し、2026年2月に実施した。