OWASPの「Top 10 for LLM Applications 2025」では、LLM01がPrompt Injectionである。2026年時点でも、業務エージェントの実運用では「モデル単体で完全防御する」発想より、外部ランタイム防御層を含む多層防御が現実解になっている。本稿はPromptArmor、Microsoft Prompt Shields、Lakera Guardの3系統を、公開情報に基づく定量・定性比較で整理する。

結論を先に示す。第一に、公開再現可能な精度指標で先行しているのはPromptArmor(ICLR 2026採択論文)である。第二に、Prompt ShieldsとLakera Guardはエンタープライズ統合のしやすさが強みであり、単体精度より「既存基盤へどう埋め込むか」で優位が決まる。第三に、間接インジェクションを前提に、突破率50%級のワーストケースを想定した被害抑制設計が必要である。

2026年の比較前提: LLM01と間接インジェクション重視への移行

OWASP LLM Top 10 (2025) は、Prompt Injectionを最優先リスクとして明示している。ここで重要なのは、攻撃面がユーザー入力だけではなく、RAG取り込み文書、Webページ、メール本文、添付ファイル、外部ツール出力に広がる点である。つまり「信頼できるデータ源だけを読む」設計は成立しにくい。

Anthropicの公開ガイドも、直接命令より外部コンテンツ混入型(間接インジェクション)を強く警戒している。実務的には、直接攻撃の単一指標より、外部データ経由の攻撃成功率と被害半径を監視KPIに置く方が有効である。

PromptArmor vs Prompt Shields vs Lakera Guard: 公開情報ベースの定量比較

公開一次情報だけで比較すると次の通りである。

観点PromptArmorMicrosoft Prompt ShieldsLakera Guard
公開研究の精度指標ICLR 2026論文で誤検知率(FPR)・偽陰性率(FNR)とも1%未満を報告製品ドキュメントは防御機構中心。公開論文形式のFPR/FNR一括提示は限定的製品ドキュメントは検知・ポリシー運用中心。公開論文形式の一括指標は限定的
AgentDojoでの報告値論文でASR 54.53%→0.79%(防御前後)を報告公表資料で同一条件のASR値は未公開(2026-05-03確認)公表資料で同一条件のASR値は未公開(2026-05-03確認)
間接インジェクション対応外部テキスト検査+実行時ポリシー分離Spotlighting、delimiters、データマーキング等を公式推奨入力/出力のガードレール検査とポリシー制御を提供
統合性研究実装寄り。導入時は独自パイプライン設計が前提Azure AI Content Safety・Defender系と組み合わせやすいAPI導入が軽量で、既存LLMスタックへ後付けしやすい
レイテンシ公開値論文に評価あり(ワークロード依存)公式の固定SLA値としては個別公開限定公式の固定SLA値としては個別公開限定

実務では「定量公開があるか」を調達要件に入れるべきである。特に防御製品は、検知率だけでなく誤検知率が運用コストを左右するため、FPR/FNRの同時提示が重要になる。

選定基準: 単体防御性能より“多層での破綻モード”を評価する

ツール単体比較だけでは不十分である。推奨は次の4軸である。1) 攻撃流入点別(user/RAG/web/tool)の検査可否、2) 高リスクアクション前の承認ゲート連携、3) 監査ログ粒度(どのルールで遮断したか)、4) 失敗時フェイルセーフ(遮断失敗時に実行権限を落とせるか)。

この4軸で見ると、PromptArmorは「検知精度の説明可能性」、Prompt Shieldsは「Microsoftスタック連携」、Lakera Guardは「導入速度」で差別化される。よって最適解は単一製品ではなく、既存基盤に合わせた役割分担になる。

実装設計: 突破率50%前提で組む多層防御アーキテクチャ

間接インジェクションはゼロ化前提では設計できない。ワーストケースとして「新規攻撃テンプレートの初期突破率が50%近傍」を想定し、次の順で防御を重ねるべきである。

  1. 前段フィルタ: PromptArmor/Prompt Shields/Lakera Guard等で入力・外部取得テキストを検査する。
  2. コンテキスト分離: 命令チャネルとデータチャネルを明示分離し、外部テキストを実行命令として扱わない。
  3. 実行権限制御: 送信・購入・更新・削除は人間承認必須にし、トークン権限を最小化する。
  4. 後段監視: 逸脱行動(不審URL、秘密情報送信、連続失敗)を検知して自動遮断する。
  5. 継続評価: AgentDojo等で週次再評価し、ASR/FPR/FNRを運用KPIとして更新する。

この設計なら、単一層が破られても即重大事故に直結しにくい。2026年の選定基準は「最強モデル」ではなく「破られた後の被害抑制能力」である。

FAQ

PromptArmorが最有力といえる根拠は何か?

公開論文でFPR/FNRとベンチマークASRを同時提示している点である。調達時に再現性を評価しやすい。

Prompt ShieldsとLakera Guardは劣るのか?

劣るとは限らない。両者は統合性と運用実装で強みがあり、既存基盤との適合で総合優位が逆転する。

間接インジェクション対策で最初に実装すべきものは?

高権限アクションの人間承認ゲートである。検知漏れが起きても被害を限定できるため、費用対効果が高い。

AgentDojoは本番リスクをどこまで代表するか?

代表性は限定的である。だが攻撃テンプレートを定期更新し、相対比較の基準として使う価値は高い。

参考文献