JLPTハルシネーション・ストレステスト2026

エグゼクティブサマリー

「AIは日本語ネイティブ並みに日本語がわかるのか？」── この問いに答えるため、我々は7つの最新LLMにJLPT（日本語能力試験）を解かせ、さらにJLPT問題を自ら作らせるという二重のストレステストを実施した。

結果は衝撃的だった。問題を「解く」能力では最高100%を達成するモデルが存在する一方、問題を「作る」となると全モデルでハルシネーション（捏造）が検出された。存在しない慣用句を堂々と正解にする。二重敬語を正しい敬語として教える。単語1つだけ出力して問題文を生成したつもりになる。── AIの「わかったつもり」の限界が、日本語という言語を通じて鮮明に浮かび上がった。

主要な発見

Claude Opus 4.6が総合1位 ── 解答94.4%・生成91.0%・ハルシネーション率わずか2.0%
Gemini 3 Proは解答テスト完全制覇 ── 54問中54問正解（100%）だが、問題生成では85.2%に低下
全モデルでハルシネーション検出 ── 最低2.0%（Claude Opus）〜最高22.0%（GPT-5.2）
「敬語」と「N1文法」がハルシネーション最大の誘発要因 ── 全ハルシネーションの35%が敬語カテゴリで発生
「解ける」と「作れる」は全く別の能力 ── 解答100%のGemini 3 Proが生成では85%に、0.4%差のGPT-5.1が「一貫した凡庸さ」を見せる

第1章：実験設計

1.1 テストの目的

多くのLLMベンチマークは「正解を当てる」能力しか測定しない。しかし教育現場でのAI活用が進む今、「正確な教材を作れるか」という観点が不可欠になりつつある。

本テストはLLMの日本語能力を「解く力」と「作る力」の二軸で評価する。JLPT問題は厳密に構造化されているため、正解の正誤判定が明確であり、ハルシネーション（捏造）の検出が容易である。さらに、N1〜N5の5段階の難易度と5つのカテゴリの組み合わせにより、モデルの弱点を精密にマッピングできる。

1.2 対象モデル

2026年2月時点の主要フロンティアLLM 7モデルを対象とした。

モデル	提供元	分類	テスト範囲
Claude Opus 4.6	Anthropic	フラッグシップ	解答＋生成
Claude Sonnet 4.5	Anthropic	ミッドレンジ	解答＋生成
GPT-5.2	OpenAI	フラッグシップ	解答＋生成
GPT-5.1	OpenAI	前世代	解答＋生成
GPT-4o	OpenAI	前々世代	解答＋生成
Gemini 3 Pro	Google	フラッグシップ	解答＋生成
Gemini 2.5 Pro	Google	前世代	解答のみ

1.3 テスト設計

本ベンチマークは2つの独立したテストで構成される。

テスト1：解答テスト（54問）

N1〜N5の5レベル × 5カテゴリ（語彙・文法・敬語・慣用句・助詞）で構成された54問のJLPT形式問題に解答させる。全問に「ひっかけ」要素を含む設計とした。各モデルには正解の選択に加え、確信度（0〜1）と推論過程の出力を要求した。

テスト2：問題生成テスト（100問/モデル）

25の標準化プロンプト（5レベル×5カテゴリ）を与え、各プロンプトに対して4問のJLPT問題を生成させる。生成された問題はClaude Sonnet 4.5が審査員として5軸×4点満点で採点した。

ひっかけ問題の設計思想: 「忸怩」「齟齬」等の希少漢字、「情けは人の為ならず」等の誤解されやすい慣用句、「公園を散歩する」の移動の「を」、「3ぼん」の連濁など、ネイティブ話者でも迷いうるポイントに焦点を当てた。

1.4 採点基準

生成テストでは以下の5軸（各0〜4点、計20点満点）で採点を行う。

採点軸	内容	4点	0点
正確性	正解が本当に正しいか	完全に正しい	捏造に基づく
選択肢品質	誤答が適切に設計されているか	適切な難易度で明確	選択肢が成立していない
レベル適合	指定レベルに合っているか	完全に適合	判定不能
自然さ	日本語として自然か	完全に自然	日本語として不成立
解説品質	解説が正確で有用か	正確で教育的	捏造に基づく

第2章：解答テスト結果

2.1 総合ランキング

#	モデル	正答数	出題数	正答率
1	Gemini 3 Pro	54	54	100.0%
2	Gemini 2.5 Pro	53	54	98.1%
3	Claude Opus 4.6	51	54	94.4%
4	Claude Sonnet 4.5	51	54	94.4%
5	GPT-4o	48	54	88.9%
6	GPT-5.2	48	54	88.9%
7	GPT-5.1	45	54	83.3%

Gemini 3 Proの完全正答は特筆に値する。全54問のひっかけ問題を一つも間違えなかった。一方でGPT-5.1がGPT-4oを下回ったという逆転現象も興味深い。新しいモデルが必ずしも全タスクで改善されるわけではないことを示している。

2.2 レベル別正答率 ── 「簡単な問題」の罠

モデル	N5	N4	N3	N2	N1
Gemini 3 Pro	100%	100%	100%	100%	100%
Gemini 2.5 Pro	90%	100%	100%	100%	100%
Claude Opus 4.6	90%	100%	100%	90.9%	91.7%
Claude Sonnet 4.5	90%	100%	100%	90.9%	91.7%
GPT-4o	70%	100%	90.9%	90.9%	91.7%
GPT-5.2	80%	90%	90.9%	81.8%	100%
GPT-5.1	70%	100%	81.8%	81.8%	83.3%

逆説的発見: 最も簡単なはずのN5（初級）でN4より多くのエラーが発生している。N5には「3本ぼん」（連濁）や「八百はっぴゃく」（音変化）など、ネイティブでも一瞬迷う助数詞・音変化の問題が含まれており、モデルが「簡単な問題」に対して過信する傾向が浮き彫りになった。

2.3 カテゴリ別正答率

モデル	語彙	文法	敬語	慣用句	助詞
Gemini 3 Pro	100%	100%	100%	100%	100%
Gemini 2.5 Pro	100%	92.9%	100%	100%	100%
Claude Opus 4.6	93.8%	100%	100%	100%	80%
Claude Sonnet 4.5	93.8%	92.9%	100%	100%	90%
GPT-4o	93.8%	85.7%	83.3%	87.5%	90%
GPT-5.2	93.8%	78.6%	83.3%	100%	90%
GPT-5.1	93.8%	78.6%	66.7%	87.5%	80%

GPT-5.1の敬語正答率66.7%は全モデル・全カテゴリを通じて最低値である。Claudeシリーズは敬語に強い（両モデルとも100%）一方、助詞で80〜90%と苦戦する傾向が見られた。

2.4 確信度キャリブレーション

各モデルの自己申告した確信度と実際の正答率の乖離を検証した。

モデル	平均確信度	実際の正答率	乖離
Gemini 3 Pro	99.7%	100.0%	+0.3%（過小評価）
Gemini 2.5 Pro	99.3%	98.1%	-1.2%
Claude Opus 4.6	96.0%	94.4%	-1.6%
Claude Sonnet 4.5	97.9%	94.4%	-3.5%
GPT-4o	94.9%	88.9%	-6.0%
GPT-5.2	94.6%	88.9%	-5.7%
GPT-5.1	97.9%	83.3%	-14.6%

GPT-5.1の過信問題: 確信度97.9%に対し正答率83.3%という14.6ポイントの乖離は、全モデル中最悪のキャリブレーションである。「自信満々に間違える」AIは、教育現場において最も危険な存在と言える。

2.5 よくある間違い分析

複数モデルが共通して間違えた問題は、LLMの日本語理解における構造的な弱点を示唆している。

1. 移動の「を」問題（5モデルが不正解）

「公園（　）散歩する」── 正解は「を」（移動の経路を示す助詞）だが、5つのモデルが「で」を選択。「公園で散歩する」も通じる日本語だが、「散歩する」は移動動詞であり、JLPT的には「を」が正解。場所＋動作の「で」と、移動経路の「を」の区別は英語話者にとって最難関の一つだが、LLMもまた同じ落とし穴にはまった。

2. 助数詞の連濁（5モデルが不正解）

「鉛筆が3＿＿あります」── 正解は「ぼん」（連濁）だが、5モデルが「ほん」を選択。「3本」の読みは「さんぼん」であり「さんほん」ではない。日本語の助数詞の音変化規則はLLMにとって依然として鬼門である。

3. 「べからざる」文法（4モデルが不正解）

「この伝統は後世に伝え（　）文化遺産である」── 正解の「べからざる」（文語的否定連体形）を正しく選べなかったモデルが4つ。古典文法とN1レベルの現代文法が交差する領域は特に困難。

4. 「敷居が高い」の意味論（GPTシリーズが不正解）

「敷居が高い」の本来の意味は「不義理をして行きにくい」だが、GPTモデルは現代の誤用である「格式が高くて入りにくい」を選択。言語変化のリアルタイム性に対するモデルの立場が問われる問題だった。

第3章：問題生成テスト結果

3.1 総合品質スコア

#	モデル	スコア	満点	品質率	生成問題数
1	Claude Opus 4.6	1,820	2,000	91.0%	100
2	Gemini 3 Pro	1,635	1,920	85.2%	96*
3	GPT-5.1	1,658	2,000	82.9%	100
4	Claude Sonnet 4.5	1,641	2,000	82.0%	100
5	GPT-5.2	1,565	2,000	78.2%	100
6	GPT-4o	1,513	2,000	75.6%	100

*Gemini 3 Proは100問中4問がJSON解析に失敗し、96問で評価。

Claude Opus 4.6が91.0%で圧倒的な1位。2位のGemini 3 Pro（85.2%）との差は5.8ポイント。最下位のGPT-4oは75.6%であり、1位との差は15.4ポイントに達する。

3.2 品質軸別分析 ── 「自然さ」は高いが「選択肢設計」が弱い

モデル	正確性	選択肢品質	レベル適合	自然さ	解説品質
Claude Opus 4.6	3.82	2.94	3.91	3.98	3.55
Gemini 3 Pro	3.54	2.75	3.65	3.79	3.30
GPT-5.1	3.22	2.66	3.80	3.83	3.03
Claude Sonnet 4.5	3.05	2.82	3.80	3.94	2.80
GPT-5.2	2.84	2.61	3.67	3.85	2.68
GPT-4o	3.13	2.29	3.55	3.50	2.66

各軸0〜4点。太字は各軸の最高値。

最も強い軸：自然さ（3.50〜3.98） ── 全モデルとも日本語の自然さでは高スコアを獲得。LLMが生成する日本語は「それっぽい」のだ。

最も弱い軸：選択肢品質（2.29〜2.94） ── 全軸中で最低値。「もっともらしい誤答」を設計する能力がLLMの最大の弱点であることが判明した。正解を知っていても、良質な「ひっかけ」を作れない。これは試験問題作成の本質に関わる発見である。

3.3 レベル別品質スコア ── N1で崩壊するモデルたち

モデル	N5	N4	N3	N2	N1
Claude Opus 4.6	18.6	18.5	18.6	18.4	16.9
Gemini 3 Pro	17.0	17.1	18.5	18.2	13.6
GPT-5.1	17.4	16.8	15.1	16.8	16.9
Claude Sonnet 4.5	17.9	17.1	16.4	16.4	14.2
GPT-5.2	16.4	16.7	15.8	15.2	14.2
GPT-4o	17.1	15.2	15.3	13.4	14.7

問題あたりの平均スコア（20点満点）。太字は各列の最低値。

N1は全モデルにとって最大の難関である。特にGemini 3 ProはN5の17.0からN1の13.6へと急落する「レベル崩壊」を示す。唯一Claude Opus 4.6だけが全レベルで16点以上を維持し、安定した品質を示した。

3.4 ハルシネーション率

モデル	検出件数	ハルシネーション率
Claude Opus 4.6	2	2.0%
Gemini 3 Pro	6	6.2%
GPT-4o	10	10.0%
GPT-5.1	12	12.0%
Claude Sonnet 4.5	14	14.0%
GPT-5.2	22	22.0%

Claude Opus 4.6の圧倒的な安全性: 100問中わずか2問のハルシネーション（2.0%）は、次点のGemini 3 Pro（6.2%）の3分の1以下。JLPT問題生成において最も信頼できるモデルと言える。

ハルシネーションの構造分析:

分類	件数	割合
カテゴリ別: 敬語	23	34.8%
カテゴリ別: 文法	18	27.3%
カテゴリ別: 慣用句	13	19.7%
カテゴリ別: 助詞	7	10.6%
カテゴリ別: 語彙	5	7.6%
レベル別: N1	26	39.4%
レベル別: N2	13	19.7%
レベル別: N3	13	19.7%
レベル別: N4	9	13.6%
レベル別: N5	5	7.6%

敬語×N1が最もハルシネーションを誘発する組み合わせであることが明確に示された。

第4章：珍回答コレクション（Hall of Shame）

ハルシネーションの中には、思わず笑ってしまうもの、教育者として背筋が凍るもの、そしてAIの限界を象徴的に示すものがある。ここでは特に印象的な「珍回答」を紹介する。

4.1 存在しない慣用句を堂々と出題

GPT-5.2（N2 慣用句、5/20点）

問題：「新しいプロジェクトの担当になってから毎日忙しくて...（　）ほど時間が過ぎるのが早い。」

GPT-5.2が設定した正解：「目の回るよう」

現実：この慣用句は存在しない。正しくは「目が回る」または「目の回るような忙しさ」。AIが微妙に間違った表現を正解として堂々と設定した。

GPT-4o（N2 慣用句、5/20点）

問題：「大きなミスをして、上司に◯◯を食いました。」

GPT-4oが設定した正解：「耳」

現実：「耳を食う」という慣用句は存在しない。「小言を食う」「叱責を受ける」「耳が痛い」など、いくつかの表現を混ぜ合わせた完全な捏造。しかも解説では「耳を貸す」を引き合いに出すが、これは「話を聞く」という全く別の意味。

4.2 敬語の二重敬語トラップ

GPT-5.1（N3 敬語、6/20点）

問題：「（病院）検査の結果を＿＿＿＿か。」

GPT-5.1が設定した正解：「拝見していただけます」

現実：二重敬語。「拝見する」（謙譲語I）＋「いただく」の組み合わせは敬語の誤用。正しくは「見せていただけますか」。AIが生成した解説では「拝見する＋いただく」が適切と述べており、誤った敬語を正しいものとして学習者に教えてしまう危険な例。

4.3 問題として成立しない出力

Gemini 3 Pro（N1 敬語、0/20点）

生成された出力：「召し上がられます」（これだけ）

問題文なし。選択肢なし。正解なし。解説なし。単語1つだけを出力してJLPT問題を生成したつもりになった。解答テスト100%のGemini 3 Proが、問題生成では最も基本的なフォーマットすら守れないケースがあることを象徴する出力。

4.4 正解番号と解説の矛盾

Claude Opus 4.6（N1 文法、12/20点）

問題：「芸術とは、人間の存在にとって欠く（　）ものである」

選択肢：0.べきではない　1.まじき　2.べからざる　3.にたえない

設定された正解：2（べからざる） ── 正しい！

しかし解説では「正解は3」と記載。

問題自体は良質だが、解説の番号ミスが惜しい。ハルシネーションというよりは「ケアレスミス」の範疇だが、教材として使用すると学習者を混乱させる。

第5章：総合分析

5.1 総合ランキング

#	モデル	解答テスト	生成テスト	総合スコア	ハルシネーション率
1	Claude Opus 4.6	94.4%	91.0%	92.7%	2.0%
2	Gemini 3 Pro	100.0%	85.2%	92.6%	6.2%
3	Claude Sonnet 4.5	94.4%	82.0%	88.2%	14.0%
4	GPT-5.2	88.9%	78.2%	83.6%	22.0%
5	GPT-5.1	83.3%	82.9%	83.1%	12.0%
6	GPT-4o	88.9%	75.6%	82.3%	10.0%

総合スコア = (解答テスト正答率 + 生成テスト品質率) / 2。Gemini 2.5 Proは生成テスト未実施のため除外。

Claude Opus 4.6とGemini 3 Proがわずか0.1ポイント差で1位と2位を分け合う。しかしハルシネーション率では10倍の差（2.0% vs 6.2%）があり、「安全性」を加味するとClaude Opusの優位は明確である。

5.2 「解ける」と「作れる」のギャップ

本ベンチマーク最大の発見は、問題を解く能力と問題を作る能力の間に大きなギャップが存在することだ。

モデル	解答テスト	生成テスト	ギャップ	タイプ
Gemini 3 Pro	100.0%	85.2%	14.8%	「優等生だが教えるのは苦手」
GPT-4o	88.9%	75.6%	13.3%	「知ってるけど作れない」
Claude Sonnet 4.5	94.4%	82.0%	12.4%	「解くのは得意」
GPT-5.2	88.9%	78.2%	10.7%	「やや不安定」
Claude Opus 4.6	94.4%	91.0%	3.4%	「最もバランスが良い」
GPT-5.1	83.3%	82.9%	0.4%	「一貫した凡庸さ」

Gemini 3 Proは解答テスト100%完璧にもかかわらず、問題生成では85.2%に低下する。「答えを知っている」ことと「良質なひっかけ選択肢を設計できる」ことは全く別のスキルであることが定量的に証明された。一方、GPT-5.1はどちらも約83%で「一貫した凡庸さ」を見せる。

5.3 モデル世代間の進化（と退化）

OpenAI系列の謎の退化:

GPT-4o → GPT-5.1：解答テスト88.9% → 83.3%（5.6ポイント低下）。新世代モデルが旧世代を下回る逆転現象。
GPT-4o → GPT-5.2：解答テストは同率（88.9%）だが、生成テストは75.6% → 78.2%とわずかに改善。
特にGPT-5.1の敬語正答率66.7%はGPT-4oの83.3%から大幅に悪化しており、モデルの大規模化が必ずしも全領域での改善を意味しないことを示す。

Anthropic系列の明確な階層:

Claude Opus 4.6はClaude Sonnet 4.5を全指標で上回る。特に生成テスト（91.0% vs 82.0%）とハルシネーション率（2.0% vs 14.0%）の差が大きい。

5.4 ハルシネーションの構造分析

なぜ敬語がハルシネーションの温床なのか？

敬語ハルシネーションの35%という高率は偶然ではない。日本語の敬語体系には以下の特性がある：

組み合わせの爆発：尊敬語・謙譲語I・謙譲語II・丁寧語の4種類を動詞・補助動詞・接尾辞と組み合わせると、膨大なパターンが生じる
微妙な正誤の境界：「お召し上がりになる」は正しいが「召し上がられる」は二重敬語とされる等、わずかな差異で正誤が分かれる
時代による変化：かつて誤りとされた表現が現代では許容されるケースもあり、訓練データ内に矛盾する情報が存在しうる

LLMは敬語の個々のパーツは知っているが、組み合わせの正誤を正確に判定する能力に欠ける。結果として、「それっぽいが実在しない」敬語表現を生成してしまう。

5.5 実務的な示唆

教育現場へのアドバイス

JLPT問題作成にLLMを使う場合、必ず人間のレビューを入れること。最良のモデル（Claude Opus）でも2%のハルシネーション率があり、100問生成すれば2問は捏造を含む。
敬語問題は特に注意が必要。ハルシネーション率が最も高いカテゴリであり、誤った敬語を正しいものとして教えてしまうリスクがある。
Claude Opus 4.6は現時点で最も安全な選択肢。2%のハルシネーション率は競合の3〜11分の1。
「問題を解ける」モデルが「問題を作れる」とは限らない。教材生成にはgeneration testの結果を重視すべき。
選択肢の品質チェックは必須。全モデルで最も弱い軸であり、「明らかに不正解の選択肢」が混じりやすい。

第6章：方法論と再現性

6.1 実験コード

実験コード公開: GitHub - itoufo/taolis（benchmarks/jlpt-hallucination-2026ディレクトリ）

解答テスト・問題生成テスト・採点スクリプト・分析スクリプトの全ソースコードに加え、全モデルの生の回答データ（raw responses）も公開。第三者による再現・検証が可能。

6.2 制約と今後の課題

審査員バイアス：問題生成テストの採点にClaude Sonnet 4.5を使用しているため、Claudeシリーズに有利なバイアスが存在する可能性がある。今後、複数モデルによるクロス評価の実施を検討。
問題数の限界：解答テスト54問・生成テスト100問/モデルは統計的に十分とは言えない。特にカテゴリ×レベルの組み合わせによっては1問しかないセルが存在する。
モデル追加予定：DeepSeek R1、Llama 4 Maverick、Qwen 3等の追加を予定。APIキー取得次第、順次テストを実施する。
テスト問題の漏洩リスク：本レポートおよびGitHubでの公開により、将来のモデルが訓練データにテスト問題を含む可能性がある。定期的な問題セットの更新が必要。

よくある質問

JLPTハルシネーションテストとは？

LLMがJLPT（日本語能力試験）の問題を「解く」能力と「作る」能力を多軸で評価するベンチマークです。単に正解を当てるだけでなく、正確な試験問題を生成できるかを検証することで、AIの日本語理解の深度を測定します。

なぜ問題生成テストが重要なのですか？

正解を選べることと、正確な試験問題を作れることは全く別の能力です。本テストでGemini 3 Proは解答テスト100%を達成しましたが、問題生成では85.2%に低下しました。教育現場でのAI活用が進む中、AIが生成する教材の品質担保は喫緊の課題です。

ハルシネーション率が最も高いカテゴリは？

敬語カテゴリが全ハルシネーションの35%を占め、最多です。存在しない敬語表現の生成、二重敬語の誤用、謙譲語と尊敬語の混同など、日本語敬語体系の複雑さがLLMの限界を浮き彫りにしています。

最も優秀だったモデルは？

総合評価ではClaude Opus 4.6が92.7%で1位、ハルシネーション率も最低の2.0%でした。解答テスト単独ではGemini 3 Proが100%で最高ですが、問題生成を含めた総合力とハルシネーションの少なさではClaude Opus 4.6が優位です。

JLPTハルシネーション・ストレステスト2026 ── AIは正しい日本語試験問題を作れるか