OWASPの「Top 10 for LLM Applications 2025」では、LLM01がPrompt Injectionである。2026年時点でも、業務エージェントの実運用では「モデル単体で完全防御する」発想より、外部ランタイム防御層を含む多層防御が現実解になっている。本稿はPromptArmor、Microsoft Prompt Shields、Lakera Guardの3系統を、公開情報に基づく定量・定性比較で整理する。
結論を先に示す。第一に、公開再現可能な精度指標で先行しているのはPromptArmor(ICLR 2026採択論文)である。第二に、Prompt ShieldsとLakera Guardはエンタープライズ統合のしやすさが強みであり、単体精度より「既存基盤へどう埋め込むか」で優位が決まる。第三に、間接インジェクションを前提に、突破率50%級のワーストケースを想定した被害抑制設計が必要である。
2026年の比較前提: LLM01と間接インジェクション重視への移行
OWASP LLM Top 10 (2025) は、Prompt Injectionを最優先リスクとして明示している。ここで重要なのは、攻撃面がユーザー入力だけではなく、RAG取り込み文書、Webページ、メール本文、添付ファイル、外部ツール出力に広がる点である。つまり「信頼できるデータ源だけを読む」設計は成立しにくい。
Anthropicの公開ガイドも、直接命令より外部コンテンツ混入型(間接インジェクション)を強く警戒している。実務的には、直接攻撃の単一指標より、外部データ経由の攻撃成功率と被害半径を監視KPIに置く方が有効である。
PromptArmor vs Prompt Shields vs Lakera Guard: 公開情報ベースの定量比較
公開一次情報だけで比較すると次の通りである。
| 観点 | PromptArmor | Microsoft Prompt Shields | Lakera Guard |
|---|---|---|---|
| 公開研究の精度指標 | ICLR 2026論文で誤検知率(FPR)・偽陰性率(FNR)とも1%未満を報告 | 製品ドキュメントは防御機構中心。公開論文形式のFPR/FNR一括提示は限定的 | 製品ドキュメントは検知・ポリシー運用中心。公開論文形式の一括指標は限定的 |
| AgentDojoでの報告値 | 論文でASR 54.53%→0.79%(防御前後)を報告 | 公表資料で同一条件のASR値は未公開(2026-05-03確認) | 公表資料で同一条件のASR値は未公開(2026-05-03確認) |
| 間接インジェクション対応 | 外部テキスト検査+実行時ポリシー分離 | Spotlighting、delimiters、データマーキング等を公式推奨 | 入力/出力のガードレール検査とポリシー制御を提供 |
| 統合性 | 研究実装寄り。導入時は独自パイプライン設計が前提 | Azure AI Content Safety・Defender系と組み合わせやすい | API導入が軽量で、既存LLMスタックへ後付けしやすい |
| レイテンシ公開値 | 論文に評価あり(ワークロード依存) | 公式の固定SLA値としては個別公開限定 | 公式の固定SLA値としては個別公開限定 |
実務では「定量公開があるか」を調達要件に入れるべきである。特に防御製品は、検知率だけでなく誤検知率が運用コストを左右するため、FPR/FNRの同時提示が重要になる。
選定基準: 単体防御性能より“多層での破綻モード”を評価する
ツール単体比較だけでは不十分である。推奨は次の4軸である。1) 攻撃流入点別(user/RAG/web/tool)の検査可否、2) 高リスクアクション前の承認ゲート連携、3) 監査ログ粒度(どのルールで遮断したか)、4) 失敗時フェイルセーフ(遮断失敗時に実行権限を落とせるか)。
この4軸で見ると、PromptArmorは「検知精度の説明可能性」、Prompt Shieldsは「Microsoftスタック連携」、Lakera Guardは「導入速度」で差別化される。よって最適解は単一製品ではなく、既存基盤に合わせた役割分担になる。
実装設計: 突破率50%前提で組む多層防御アーキテクチャ
間接インジェクションはゼロ化前提では設計できない。ワーストケースとして「新規攻撃テンプレートの初期突破率が50%近傍」を想定し、次の順で防御を重ねるべきである。
- 前段フィルタ: PromptArmor/Prompt Shields/Lakera Guard等で入力・外部取得テキストを検査する。
- コンテキスト分離: 命令チャネルとデータチャネルを明示分離し、外部テキストを実行命令として扱わない。
- 実行権限制御: 送信・購入・更新・削除は人間承認必須にし、トークン権限を最小化する。
- 後段監視: 逸脱行動(不審URL、秘密情報送信、連続失敗)を検知して自動遮断する。
- 継続評価: AgentDojo等で週次再評価し、ASR/FPR/FNRを運用KPIとして更新する。
この設計なら、単一層が破られても即重大事故に直結しにくい。2026年の選定基準は「最強モデル」ではなく「破られた後の被害抑制能力」である。
FAQ
PromptArmorが最有力といえる根拠は何か?
公開論文でFPR/FNRとベンチマークASRを同時提示している点である。調達時に再現性を評価しやすい。
Prompt ShieldsとLakera Guardは劣るのか?
劣るとは限らない。両者は統合性と運用実装で強みがあり、既存基盤との適合で総合優位が逆転する。
間接インジェクション対策で最初に実装すべきものは?
高権限アクションの人間承認ゲートである。検知漏れが起きても被害を限定できるため、費用対効果が高い。
AgentDojoは本番リスクをどこまで代表するか?
代表性は限定的である。だが攻撃テンプレートを定期更新し、相対比較の基準として使う価値は高い。
参考文献
- OWASP Top 10 for LLM Applications 2025 — OWASP GenAI Security Project, 2025-11-18
- PromptArmor: A Runtime Defense Framework for Prompt Injection Attacks in LLM-based Agents — ICLR 2026 (OpenReview), 2026
- Prompt Shields concepts — Microsoft Learn, accessed 2026-05-03
- Lakera Guard Overview — Lakera Docs, accessed 2026-05-03
- AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents — arXiv, 2024-06-19
- Mitigate jailbreaks and prompt injections — Anthropic Docs, accessed 2026-05-03
