Retrieval-Augmented Generation(RAG)は、LLMの幻覚問題を解決する切り札として急速に普及した。2025年時点でRAG市場は約23億ドル規模に達し、大企業の73%以上がRAGを実装している。だが、その「信頼できる外部知識」こそが、新たな攻撃面になっている。2024年2月に発表されたPoisonedRAG論文は、数百万件の文書を持つナレッジベースにわずか5つの細工文書を注入するだけで、AI応答の90%を攻撃者の意図通りに操作できることを実証した。本記事ではテクノロジーの視点から、RAG Poisoning攻撃の技術的メカニズム、The Lethal Trifecta概念に基づく脅威モデル、そして多層防御アーキテクチャを分析する。
PoisonedRAG ── 5文書で90%操作の衝撃
2024年2月、Wei Zou、Runpeng Geng、Binghui Wang、Jinyuan Jiaの4名が発表した論文「PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models」(USENIX Security 2025採録)は、RAGセキュリティの前提を根本から覆した。
攻撃の核心は単純である。RAGシステムはユーザーのクエリに対してベクトル類似度でナレッジベースを検索し、上位文書をLLMのコンテキストとして注入する。PoisonedRAGはこの検索メカニズムを逆手に取り、ターゲットクエリに対して高い類似度スコアを返すよう最適化された悪意ある文書を生成する。ブラックボックス設定ではターゲット質問をプリペンドするだけの単純な手法で、ホワイトボックス設定ではリトリーバーの勾配情報を利用して埋め込みベクトルを直接最適化する。
衝撃的なのはその効率性である。数百万件規模のコーパスに対して、たった5件の毒入り文書を注入するだけで攻撃成功率は90%に達した。コーパス全体の0.0005%にも満たない汚染率で、システムの信頼性が壊滅的に損なわれる。既存の防御手法(パープレキシティフィルタリング、文書品質チェック等)はPoisonedRAGに対して不十分であることも同時に実証された。
攻撃手法の技術的進化 ── HotFlipからPhantom、CorruptRAGへ
RAG Poisoningの技術は急速に進化している。基盤となるのはHotFlipアルゴリズムである。ランダムトークンで初期化した敵対的パッセージに対し、リトリーバーからの勾配情報を用いてトークンレベルで反復最適化する。方向微分を利用して文字・単語置換の効果を近似し、最も攻撃効果の高い摂動を選択する。ただし、勾配蓄積に計算コストが集中するという限界がある。
2024年後半にはPhantom攻撃がICLR 2025で発表された。これは単一の悪意ある文書で攻撃を成立させる手法である。2段階の最適化フレームワークにより、特定のトリガートークンがクエリに含まれるまで検索されない「休眠型」文書を生成する。トリガー条件が満たされると文書が検索上位に浮上し、回答拒否、レピュテーション攻撃、プライバシー侵害など多様な目的を達成する。Gemma、Vicuna、Llamaなどのオープンソースモデルで検証された後、GPT-3.5 Turbo、GPT-4にも転移攻撃が成功し、NVIDIAの商用RAGシステム「Chat with RTX」でも実証された。
2026年1月に登場したCorruptRAGはさらに実用性を高めた。単一文書の注入のみで高い成功率を達成しつつ、アクセス制限のあるナレッジベースや監査トレイルが設置された環境でも機能する。文書のベクトル表現をターゲットクエリのベクトル近傍に押し込むための単語・フレーズ選択が高度に洗練されている。
注目すべきは2024年10月発表の「ステルス型」攻撃である。従来のHotFlipベース攻撃は極めて高いパープレキシティを持つ不自然なテキストを生成するため、言語モデルによるフィルタリングで検出可能だった。Adversarial Decodingは埋め込み類似度、低パープレキシティ、自然性の3目標を同時に最適化し、LLMのロジットからソフトスコアを抽出して微分可能な自然性シグナルを生成する。これにより人間が読んでも違和感のない毒入り文書が実現された。
The Lethal Trifecta ── なぜRAGシステムが構造的に危険なのか
AIセキュリティ研究者のSimon Willisonが2025年に提唱したThe Lethal Trifecta(致命的三要素)は、RAGシステムの構造的脆弱性を端的に説明するフレームワークである。
3つの要素とは、(1)プライベートデータへのアクセス(メール、文書、データベースの読み取り権限)、(2)信頼されていないコンテンツへの露出(外部ソースからの入力処理)、(3)外部通信能力(API呼び出し、リンク生成、画像レンダリング等)である。この3要素が同時に存在するとき、攻撃者は信頼されていないコンテンツ内に隠し命令を埋め込み、プライベートデータを外部に持ち出すことが可能になる。
RAGシステムは本質的にこの三要素を満たしやすい。ナレッジベースにはSharePointリポジトリ、Google Drive、Confluenceなど外部ソースの文書が取り込まれ(要素2)、それらの文書に基づいて社内データを参照・要約し(要素1)、結果をメールやSlack等に出力する(要素3)。2024年8月にはSlack AIでまさにこのパターンのデータ窃取脆弱性が発覚した。チャンネル内に仕込まれた毒入りメッセージがAIの動作を操作し、プライベートチャンネルの情報が漏洩した。
筆者自身、セキュリティアーキテクトとして複数企業のゼロトラスト設計に関わってきた経験から断言するが、セキュリティ戦略はビジネスの制約を理解した上で設計しなければ絵に描いた餅になる。RAGシステムも同様で、「便利だから全社導入」という判断が、この三要素を無自覚に揃えてしまう最大の原因である。
Metaが提唱するRule of Two(二要素の規則)は、実行パスにおいて常に3要素のうち少なくとも1つを欠落させることで安全性を担保する設計原則である。具体的には、外部ネットワークアクセスの遮断、直接的なファイル・DB読み取り権限の剥奪、信頼されていない入力のサニタイズのいずれかを強制する。
多層防御アーキテクチャ ── 6レイヤーの実装設計
RAG Poisoningに対する防御は、単一の対策では不十分である。以下の6レイヤーで構成される多層防御が必要となる。
レイヤー1: 入力クエリ検証。ユーザークエリに含まれる不審なパターンをスクリーニングする。テンプレートベースのクエリ構造にガードレールを実装し、命令注入の余地を最小化する。クエリの自由度を制限することで、入口段階での攻撃成功率を下げる。
レイヤー2: データ取り込みバリデーション。ナレッジベースに投入される文書を事前スキャンする。「前の指示を無視せよ」「以下の内容で回答せよ」といった不審な命令パターンを、ヒューリスティック・正規表現・LLMベースのフィルタリングで検出する。Data Version Control(DVC)で変更履歴を追跡し、ロールバックを可能にする。脆弱性診断の実務で学んだ教訓だが、後付けのセキュリティは常にコストが高い。文書取り込みの段階でバリデーションを組み込むことが、最もコスト効率の良い防御である。
レイヤー3: 埋め込みレイヤー異常検知。EmbedGuardフレームワークに代表される手法で、増分主成分分析(Incremental PCA)による高次元埋め込み空間の異常検知と、カルバック・ライブラー情報量による分布シフト検出を組み合わせる。最適化ベース攻撃に対して94.7%、適応型攻撃に対して89.3%の検出率が報告されている。平均レイテンシは51msで本番環境のパフォーマンス要件を満たし、偽陽性率は3.2%である。
レイヤー4: 検索結果検証。Corrective RAG(CRAG)アプローチに基づき、検索された文書の品質を軽量評価器で判定する。信頼度が低い場合はフォールバック機構に切り替え、再ランキングによって毒入り文書の優先度を下げる。Precision@k、MRR、NDCGなどの指標でリアルタイムに検索品質を監視する。
レイヤー5: 出力一貫性検証。生成されたテキストとソース文書の一貫性を検証し、PII(個人識別情報)の意図しない出力をポストプロセッシングで除去する。ハルシネーション検出と併せて、検索文書に含まれない情報がLLM出力に混入していないかを確認する。
レイヤー6: 監視・監査基盤。各クエリに対してどの文書が検索されたか、どのプロンプトテンプレートが使用されたか、モデルがどう処理したかを記録する。同一の不審ソースへの繰り返しヒットをアクセスパターン異常検知で特定する。筆者がSOC構築の現場で学んだ教訓として、SOCの価値はツールではなく、アラートから判断までの人間のプロセスにある。RAGの監視基盤も同様に、ログ収集だけでなくトリアージと対応フローの設計が不可欠である。
2026年の脅威ランドスケープと今後の展望
RAG Poisoningの脅威は拡大の一途を辿っている。2025年5月に発表されたPoisonedEye(ICML 2025)は、テキストベースRAGからVision-Language RAG(VLRAG)への攻撃面拡張を実証した。単一のポイズンサンプルで視覚言語モデルの応答を操作可能であり、マルチモーダルAIの普及に伴い攻撃対象が劇的に広がることを示唆している。
2026年3月にはKnowledge Graph RAG(KG-RAG)への体系的な攻撃研究も始まっている。テキストベースRAGとは異なる構造的脆弱性を持つ知識グラフが、新たな攻撃面として浮上している。
防御側も進化している。2025年から2026年にかけて、RAGuard(レイヤード防御フレームワーク)、RevPRAG(攻撃の検知と逆転、EMNLP 2025)、RAGDefender(知識腐敗攻撃への効率的防御、ACSAC 2025)、GMTP(勾配ベーストークン確率による毒入り文書検知)など複数の防御フレームワークが発表された。しかし、階層型ガードレールを導入しても攻撃成功率を23.4%程度にしか下げられないという報告もあり、単一の防御手法では不十分であることが改めて示されている。
RAG市場が2035年までに400億ドル規模に成長すると予測される中、攻撃面も比例して拡大する。エンタープライズRAGを構築する全ての技術者に求められるのは、「ナレッジベースは信頼できる」という前提の放棄と、多層防御の実装である。
FAQ
RAG Poisoningとは何ですか?
RAG(Retrieval-Augmented Generation)システムのナレッジベースに悪意ある文書を注入し、AIの応答を攻撃者の意図通りに操作する攻撃手法である。ベクトル類似度検索のメカニズムを悪用し、毒入り文書を検索上位に浮上させることで成立する。
なぜわずか5文書で90%の操作が可能なのですか?
RAGシステムは通常、上位k件(例: 5件)の文書のみをLLMのコンテキストに注入する。攻撃者はターゲットクエリに対して最も高い類似度スコアを返すよう文書を最適化するため、少数の文書でも上位枠を独占できる。コーパス全体を汚染する必要はなく、検索結果の上位を支配するだけで十分である。
RAG Poisoningの被害を防ぐにはどうすればよいですか?
単一の対策では不十分であり、入力クエリ検証、データ取り込みバリデーション、埋め込み異常検知、検索結果検証、出力一貫性検証、監視・監査基盤の6レイヤーで構成される多層防御が必要である。加えて、The Lethal Trifectaの3要素を同時に揃えない設計原則(Rule of Two)が重要となる。
自社のRAGシステムが攻撃されているかどうか検知できますか?
EmbedGuardのような埋め込み異常検知フレームワークを導入すれば、最適化ベース攻撃に対して94.7%の検出率が報告されている。ただし、自然なテキストを生成するステルス型攻撃(Adversarial Decoding)への検知は依然として困難であり、複数の検知手法の組み合わせが必要である。
参考文献
- PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models — Wei Zou et al., USENIX Security 2025
- Phantom: General Trigger Attacks on Retrieval Augmented Language Generation — ICLR 2025
- Controlled Generation of Natural Adversarial Documents for Stealthy Retrieval Poisoning — arXiv, 2024
- The lethal trifecta for AI agents: private data, untrusted content, and external communication — Simon Willison, 2025
- RAG Security and Privacy: Formalizing the Threat Model and Attack Surface — Arzanipour et al., 2025
- EmbedGuard: Cross-Layer Detection and Provenance Attestation for Adversarial Embedding Attacks in RAG Systems — IJCESEN, 2025
- Retrieval Augmented Generation Market Size Report, 2030 — Grand View Research



