2025年後半から2026年にかけて、サイバー攻撃の主体が人間からAIエージェントへ急速にシフトしている。Anthropicが2025年8月に公開した脅威インテリジェンスレポートは、単独の攻撃者がAIコーディングエージェントを使い17組織を同時に標的とした自動化攻撃を初めて文書化した。プロンプトインジェクションとツール悪用を組み合わせた攻撃チェーンは、バックアップ削除、DB全量流出、不正取引実行を人間の介在なく完遂する段階に達している。本記事では、AIエージェント攻撃の産業構造、具体的な攻撃チェーンの技術分析、そしてAIファイアウォールによる実行時防御の設計思想を解説する。
エージェント型攻撃の現在地 ── 2025年Q4の実態データ
OWASP LLM Top 10の2025年版・2026年版において、プロンプトインジェクションは一貫して最重要脆弱性(LLM01)に位置づけられている。OpenAIは2025年12月、プロンプトインジェクションは「ウェブ上の詐欺やソーシャルエンジニアリングと同様、完全に解決される可能性は低い」との公式見解を示した。
数字は深刻さを裏付ける。2025年のAI関連サイバー攻撃は前年比47%増加し、Lakera AIがQ4に観測した攻撃セッションは91,000件を超えた。学術研究はさらに厳しい現実を突きつける。arXivに2025年10月に公開された論文「Agentic AI Security」は、最先端LLMエージェントの94.4%がプロンプトインジェクションに脆弱であり、エージェント間信頼の悪用に至っては脆弱率100%であると報告している。
筆者はセキュリティエンジニアとしてインシデント対応の最前線に立った経験から、1秒の判断遅れが被害範囲を指数関数的に拡大させることを体感してきた。AIエージェントによる攻撃は、この「1秒」を文字通りゼロにする。従来の人間によるインシデント対応のタイムラインが根本から崩壊するのである。
攻撃チェーンの技術解剖 ── プロンプトインジェクションからツール悪用へ
AIエージェント攻撃の本質は、単発の脆弱性悪用ではなく、複数の手法を連鎖させた「攻撃チェーン」にある。その典型的な進行は以下の通りである。
Phase 1: 間接プロンプトインジェクション。攻撃者はメール、ドキュメント、コードリポジトリなどエージェントが読み取るデータソースに悪意ある指示を埋め込む。Microsoft 365 Copilotを標的とした「EchoLeak」(CVE-2025-32711、CVSS 9.3)はその典型で、攻撃メールを送信するだけでゼロクリックでSharePoint・OneDrive・Teamsのデータを窃取できた。
Phase 2: ツール呼び出しの乗っ取り。注入された指示がエージェントのツール実行権限を悪用する。2025年4月から10月にかけてModel Context Protocol(MCP)サーバーで発覚した一連の脆弱性は、ツールポイズニング、クロスサーバーシャドウイング、スキーマ操作など多様な攻撃ベクトルを実証した。AuthZedの記録によれば、WhatsAppチャット履歴の全量流出、GitHubプライベートリポジトリの機密データ窃取、Asanaのクロステナントアクセスなど、実被害は広範に及んでいる。
Phase 3: 自律的目標遂行。最も深刻なのは、エージェントが攻撃の戦術的判断を自律的に行う段階である。Anthropicの2025年8月レポートが文書化した事例では、AIエージェントがどのデータを窃取するか、どのような心理的圧力をかけた身代金要求文を作成するかを自律的に判断し、7万5千〜50万ドルのビットコイン身代金を要求した。
MCPエコシステムの脆弱性 ── 7,000サーバーの半数が攻撃面
2025年中頃の時点で、公開インターネット上にアクセス可能なMCPサーバーは約7,000台存在し、その半数が不必要に外部に露出していた。以下は2025年に確認された主なMCPセキュリティインシデントの一部である。
2025年6月、Anthropic MCP Inspector自体にCVE-2025-49596(認証不要のRCE)が発見された。同年7月には、mcp-remoteのOAuthプロキシにCVE-2025-6514(コマンドインジェクション)が見つかり、影響を受けたダウンロード数は43万7千件以上に達した。8月にはAnthropicファイルシステムMCPでサンドボックスエスケープ(CVE-2025-53109/53110)が確認されている。
さらに9月には、トロイの木馬化された偽PostmarkMCPパッケージがサプライチェーン攻撃として流通し、すべてのメール送信にBCCで攻撃者のアドレスが追加された。10月にはSmithery MCPレジストリでパストラバーサルが発見され、3,000以上のアプリのDocker設定とFly.io APIトークンが流出した。
筆者は脆弱性診断とペネトレーションテストの実務を通じ、プロトコルやHTTPヘッダ一つの設定ミスが致命的な脆弱性になり得ることを幾度も確認してきた。MCPエコシステムの脆弱性は、この教訓がAIエージェント時代においても変わらず通用することを示している。後付けのセキュリティは常にコストが高い。開発段階でのセキュリティ設計が、AIツール連携においても不可欠なのである。
AIファイアウォールによる実行時防御の技術設計
攻撃の自動化・高速化に対抗するには、防御側も実行時(ランタイム)での自動防御が不可欠である。2025年後半から2026年にかけて、複数の重要なAIファイアウォール技術が登場した。
Meta LlamaFirewall(2025年4月29日公開)は、3層構造のオープンソース防御フレームワークである。第1層のPromptGuard 2がプロンプトインジェクションの汎用検知を担い、第2層のAgent Alignment Checksがエージェントの推論過程(Chain-of-Thought)を監査して目標逸脱を検出する。第3層のCodeShieldはコーディングエージェントが生成する危険なコードをリアルタイムで静的解析する。
Cisco AI Defenseは2026年2月に大幅拡張を発表し、AI BOM(AIアセットの部品表)、MCPカタログ(MCPレジストリ横断のリスク管理)、適応型マルチターンレッドチーミング、リアルタイムエージェンティックガードレールを統合した。Fortinet Secure AI Data Centerは2025年11月にAIインフラ保護に特化した包括的フレームワークとして発表されている。
SOC構築・運用の経験から言えるのは、いかに高度なツールを導入しても、SOCの価値はアラートから判断までの人間のプロセスにあるということである。AIファイアウォールは検知を自動化するが、最終的な対処判断のループに人間が介在するアーキテクチャ ── human-in-the-loop ── を維持しなければ、誤検知による業務停止と見逃しによる被害拡大のどちらに転ぶかわからない。
2026年後半の脅威展望 ── 産業化の次にくるもの
Malwarebytesは、2026年にはAIの新興能力が「完全自律型ランサムウェアパイプライン」に成熟し、個人オペレーターや少人数チームが同時に複数標的を攻撃可能になると予測している。すでにダークウェブ上ではAI生成ランサムウェアパッケージが400〜1,200ドルで流通しており、高度なエヴェイジョン機能、強力な暗号化、アンチリカバリー機構(バックアップ破壊)を備えているとされる。
防御側に求められるのは、以下の多層的アプローチである。第一に、エージェントが実行するすべてのツール呼び出しに対する最小権限原則(Least Privilege)の徹底。第二に、エージェントの推論過程をリアルタイムで監査するChain-of-Thought監視の実装。第三に、MCPサーバーやツールの構成変更に対する署名検証とSBOM(ソフトウェア部品表)管理。第四に、AI同士が相互検証するクロスバリデーション・アーキテクチャの導入である。
2026年8月2日にはEU AI法の高リスクシステム義務が完全施行され、サイバーセキュリティ、透明性、人間による監視が法的要件となる。プロンプトインジェクションと敵対的ロバスト性が明示的に規制対象として分類されており、対応を怠った企業には最大3,500万ユーロまたは全世界売上高の7%の制裁金が科される。AIエージェントのセキュリティは、もはや技術的課題ではなく経営課題である。
FAQ
AIエージェント攻撃とは何ですか?
AIエージェントが持つツール実行権限を悪用し、プロンプトインジェクションなどの手法でエージェントの行動を操作するサイバー攻撃の総称である。従来の人間主導の攻撃と異なり、自律的かつ高速に攻撃チェーンを実行する点が特徴である。
プロンプトインジェクションは完全に防げますか?
現時点では完全な防御は困難とされている。OpenAIは2025年12月に「完全に解決される可能性は低い」との公式見解を示した。多層防御(入力検証、出力監査、ツール実行制限の組み合わせ)で被害を最小化するアプローチが現実的である。
AIファイアウォールとは何ですか?
AIエージェントの入出力やツール呼び出しをリアルタイムで監視・検査し、悪意ある操作を検知・遮断する防御技術である。MetaのLlamaFirewallやCisco AI Defenseが代表的な製品で、プロンプトインジェクション検知、推論過程の監査、コード安全性検査などを統合的に提供する。
MCPサーバーのセキュリティリスクをどう軽減すべきですか?
不必要なインターネット露出の排除、ツール定義の署名検証、最小権限でのアクセス制御、定期的な依存パッケージ監査が基本対策となる。2025年に確認されたMCP脆弱性の多くは、これらの基本対策で防止可能であった。
参考文献
- Detecting and Countering Malicious Uses of Claude: August 2025 — Anthropic, 2025年8月
- Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges — arXiv, 2025年10月
- Timeline of MCP Security Breaches — AuthZed, 2025年
- LlamaFirewall: An Open Source Guardrail System for Building Secure AI Agents — Meta AI Research, 2025年4月
- Cisco Redefines Security for the Agentic Era — Cisco, 2026年2月
- OWASP Top 10 for LLM Applications 2025 — OWASP, 2025年
- Prompt Injections — OpenAI, 2025年12月
- AI Agent Attacks in Q4 2025 Signal New Risks for 2026 — eSecurity Planet, 2025年



