2026年、ペネトレーションテストの産業構造が根底から変わりつつある。XBOWがHackerOneグローバルリーダーボードで首位を獲得し、Google Big Sleepが史上初のAI発見ゼロデイを記録した2024〜2025年の「概念実証期」を経て、いまやPenligent・BlacksmithAI・Shannon Liteという3大プラットフォームが「Automation(定型自動化)」から「Autonomy(自律判断)」への転換を産業レベルで推し進めている。ペンテスト市場は2026年に30.9億ドル規模に達し(Fortune Business Insights)、2034年には74.1億ドルへ成長する見通しだ。従来の年次・四半期単位の「ポイントインタイム診断」は経済合理性を失いつつあり、AIエージェントによる継続的セキュリティ検証が新たな標準になりつつある。OpenAI Aardvark・AWS Security Agent・Dropzone AIの比較分析でも示したとおり、AI自律脆弱性ハンティングの産業化は複数のベクトルで同時進行している。本稿では、2026年時点で実戦投入レベルに達した3大ツールの実装アーキテクチャを技術的に比較し、「2027年手動ペンテスト廃止」予測の根拠と限界、そしてHuman-in-the-Loopの再定義が何を意味するかを分析する。

Penligent ── 200+ツールオーケストレーションとSafe Modeが実現する「Drop and Go」アーキテクチャ

Penligentは、エージェンティックAI駆動のペネトレーションテストプラットフォームとして、2026年時点で最も包括的なツールオーケストレーション機能を提供している。Nmap、Metasploit、Burp Suite、OWASP ZAP、SQLMap、WhatWeb、searchsploitなど200以上のセキュリティツールを統一ワークフロー内で自律的に連携させる設計だ。従来のペンテスト自動化ツールとの決定的な違いは、Penligentが「自前のスキャンエンジン」に閉じないことにある。SQLMapを特定のフラグで起動し、出力をパースし、その結果をhydraのパスワードスプレーに投入するといった、人間のペンテスターが実際に行うツールチェーン操作を自律的に再現する。

Penligentのアーキテクチャはマルチエージェントシステムとして構成されている。仮想的な「作戦室」にRecon Expert(偵察専門家)、Exploit Specialist(攻撃専門家)、Reporting Analyst(報告専門家)が配置され、それぞれが専門領域のツールを操作しながら発見事項を共有する。この設計により、偵察段階で発見されたサービス情報が即座に攻撃フェーズに引き渡され、人間が介在するハンドオフの遅延が排除される。

運用面で注目すべきは「Drop and Go」コンセプトだ。従来のペンテストツールはヘッダ設定、認証トークン、スコープ定義などに数時間の事前設定を要した。Penligentはドメインを指定するだけで、残りの設定をAIエージェントが自律的に判断する。これは単なるUI改善ではなく、ペンテストの「セットアップコスト」を構造的に削減するアーキテクチャ設計の帰結だ。

本番環境での安全性を担保するSafe Mode機能も、産業利用における重要な差別化要因となっている。Remote Code Execution(RCE)脆弱性を発見した場合、rm -rf /のような破壊的コマンドではなくecho 'Hello World'を実行することで、キルチェーンの存在を証明しつつ実害を回避する。筆者の経験では、脆弱性診断・ペネトレーションテストの実務において、本番環境への影響を最小化しながら脆弱性の実在を証明することは最も難易度の高い技術判断の一つだ。プロトコルやHTTPヘッダ一つの設定ミスが致命的な脆弱性になり得る現場では、AI側にもこの「破壊せずに証明する」能力が不可欠であり、PenligentのSafe Modeはこの要件に対する実装回答と言える。

ただし、PenligentはSaaSモデルでの提供が中心であり、完全なセルフホスティングには対応していない。機密性の高い環境での利用にはデータ残留リスクの評価が必要となる。この点は後述のBlacksmithAIやPentAGIのようなオープンソース選択肢との比較で重要な判断要素になる。

BlacksmithAI・PentAGI ── オープンソース階層型マルチエージェントの実装比較

2026年3月にリリースされたBlacksmithAIは、オープンソースのAI駆動ペネトレーションテストフレームワークとして、階層型マルチエージェントアーキテクチャを採用している。Orchestratorエージェントがプロセスリードとして機能し、ユーザーとの対話および他エージェントの管理を担当する。複雑なタスクはサブゴールに分解され、Recon、Scan/Enum、Vulnerability Analysis、Exploit、Post-Exploitationの各専門エージェントに委任される。各サブエージェントは独自のドメイン専門知識とツールセットを持ち、リアルタイムフィードバックに基づいてアプローチを適応させる。

BlacksmithAIの技術的特徴は「推論レイヤー」にある。各エージェントが自身の判断を説明し、曖昧な状況に対処できる点が、従来のスクリプト型自動化ツールとの本質的な差異だ。タスクごとに新規コンテナを起動するのではなく、事前構成された環境内でエージェントが動作するため、リソース効率とツールキャッシングが改善される。デプロイ要件はDocker、Python 3.12、Node.jsランタイム、uvパッケージマネージャで、Linux・macOS・Windows(WSL2経由)に対応する。

一方、2026年4月に公開されたPentAGIはVXControl社が開発したオープンソースプロジェクトで、GitHubで約14,700スター・1,600フォークを獲得し、AI系ペンテストプロジェクトとして最多スター数を記録している。アーキテクチャは目標指向型で、Orchestratorが目標を受け取り、Researcher(情報収集・脆弱性データベース照会)、Developer(攻撃戦略策定)、Executor(サンドボックスDocker環境でのコマンド実行)の3つの専門エージェントを協調させる。OpenAI、Anthropic、Google Gemini、AWS Bedrock、Ollama、DeepSeekなど複数のLLMバックエンドに対応し、Nmap・Metasploit・SQLMapなど20以上のセキュリティツールを内蔵する。オプションのNeo4jベースGraphitiナレッジグラフにより、ツール・ターゲット・脆弱性・技法間のセマンティック関係をセッション横断で蓄積できる。MIT Licenseで完全にフリー・セルフホスト可能だ。

両フレームワークを比較すると、BlacksmithAIはペンテストライフサイクルの各フェーズに特化したエージェント分離が明確であり、より「人間チーム構造のミラーリング」に近い設計思想を持つ。対してPentAGIはResearcher/Developer/Executorの3エージェント構成で、抽象度が高く汎用性に優れるが、各フェーズ間の専門分化は浅い。ナレッジグラフによるセッション間学習はPentAGIの明確な優位点であり、継続的ペンテストにおいて過去の発見事項を累積活用できるアーキテクチャは実運用で大きな差を生む。

OWASP Top 10 Agentic Applications 2026が定義するGoal HijackingやExcessive Autonomyのリスクは、これらのオープンソースエージェントにもそのまま適用される。Orchestratorに対するプロンプトインジェクション攻撃や、エージェントがスコープ外のターゲットに攻撃を拡大するシナリオは、自律ペンテストツール固有のセキュリティ課題として認識されなければならない。

Shannon Lite ── ホワイトボックス自律ペンテスターとXBOWベンチマーク96.15%の技術的背景

Shannon LiteはKeygraph社が開発した自律型ホワイトボックスAIペンテスターで、Webアプリケーションおよびアプリケーション、APIのセキュリティテストに特化している。他の2ツールがブラックボックス型(外部からの攻撃シミュレーション)を主軸とするのに対し、Shannon Liteはソースコード解析と実行時エクスプロイトの組み合わせという独自のアプローチを採る。アプリケーションのソースコードを解析して潜在的な攻撃ベクトルを特定し、ブラウザ自動操作とコマンドラインツールを用いて実際のエクスプロイト(インジェクション攻撃、認証バイパス、SSRF、XSS)を稼働中のアプリケーションに対して実行する。

Shannon Liteの性能を端的に示すのがXBOWベンチマークでの成績だ。PortSwigger、PentesterLab、パブリックCTFコンペティションから収集された104のWebセキュリティチャレンジ(SQLインジェクション、RCE、SSRF、Padding Oracle攻撃などの実在する脆弱性クラスをテスト)で構成されるこのベンチマークにおいて、Shannon Liteは100/104のエクスプロイトチャレンジに成功し、96.15%のスコアを記録した。一般的な商用DAST(Dynamic Application Security Testing)ツールが同等の評価で30〜40%程度にとどまることを考えれば、この数値の意味は明白だ。

完全自律動作も注目すべき特徴だ。単一コマンドでフルペンテストが起動し、2FA/TOTPログイン(SSOを含む)、ブラウザナビゲーション、エクスプロイト実行、レポート生成までを人間の介入なしに完了する。最終レポートには実際に動作するPoC(Proof of Concept)が付属した脆弱性のみが記載され、偽陽性は構造的に排除される。この「PoCが動く脆弱性だけを報告する」設計は、従来のスキャナーが生成する大量の偽陽性ノイズを根本から解決するものだ。

Shannon Proは上位エディションとして、SAST、SCA、シークレットスキャン、ビジネスロジックセキュリティテスト、自律AIペンテストを単一の相関ワークフローに統合するKeygraphの包括的AppSecプラットフォームだ。Liteが「攻撃証明の自律化」に焦点を当てるのに対し、Proは「AppSec全体の統合」を志向する。

Shannon Liteの構造的制約はソースコードアクセスが必須という点だ。ブラックボックスアセスメントには対応せず、対象アプリケーションのリポジトリへのアクセス権が前提となる。これは社内開発アプリケーションのセキュリティ検証には最適だが、サードパーティサービスや外部APIの評価には適用できない。PenligentやBlacksmithAIとは利用シナリオが明確に異なるため、直接的な代替ではなく補完関係にあると理解すべきだ。

XBOW・Big Sleep ── 「2027年手動ペンテスト廃止」予測の技術的根拠と限界

「2027年までに手動ペンテストはニッチなブティックサービスに縮小し、脆弱性評価の99%はエージェンティックに実行される」──この予測の技術的根拠を検証するために、2つの画期的な実績を精査する必要がある。

XBOW社は、HackerOneバグバウンティプラットフォームにおいて完全自動で1,060以上の脆弱性を提出し、わずか90日間でグローバルリーダーボード首位を獲得した。すべての発見が自動化されたものであり、数千人の経験豊富な人間リサーチャーを凌駕した。さらに衝撃的なのは、ベンチマーク上での速度差だ。104のセキュリティチャレンジにおいて、20年以上の経験を持つ主任ペンテスターFederico Muttis氏が40時間を要した作業を、XBOWは28分で同等の85%スコアを達成した。これは40時間対28分、すなわち約86倍の速度差を意味する。XBOWの具体的な能力を示す事例として、暗号化されたCookieを識別し、AES-128 CBCモードであることを認識し、差分エラー応答からPadding Oracleを発見し、バイト単位の完全な復号エクスプロイトを記述してCookieを解読するまでの全工程を17.5分で完了したケースがある。

Google DeepMindとProject Zeroが共同開発したBig Sleepは、2024年11月にSQLiteの脆弱性(CVE-2025-6965)を発見し、AIエージェントによる史上初のゼロデイ発見として記録された。さらに2026年1月には、セキュリティスタートアップAISLEがOpenSSLの12件のゼロデイ脆弱性すべてをAIシステムで発見している。これらは「既知の脆弱性パターンの再検出」ではなく、「未知の脆弱性の新規発見」であり、AI脆弱性発見の能力が質的に新しいフェーズに入ったことを意味する。AI訓練データポイズニングの研究が示すように、AIシステム自体のセキュリティと、AIによるセキュリティ強化は表裏一体の関係にある。

Gartnerの2025年予測では、2027年までに大企業のペネトレーションテスト活動の40%以上がAI支援自動化を組み込むとされている。また、2027年までに正式なエクスポージャー検証プログラムを運用する組織は全体の40%に達すると予測されており、現在の約5%から急激な拡大が見込まれる。HackerOneの2026年調査では、AI支援ツールを使用するバグバウンティリサーチャーは月あたり28%多い有効なレポートを提出しており、深刻度分布も上方にシフトしている。

しかし「2027年手動廃止」予測には重要な留保がつく。AIペンテスターが卓越するのは、既知のパターンに基づくスケーラブルな攻撃の自動化だ。ビジネスロジックの脆弱性、複雑な認可フローの欠陥、組織固有のコンテキストに依存する攻撃パスの発見は、依然として人間の創造的推論に依存する領域が大きい。筆者がSOC構築・運用の実務で体得した教訓として、「SOCの価値はツールではなく、アラートから判断までの人間のプロセスにある」という原則は、自律ペンテストにも通底する。AIが生成する大量の発見事項を、ビジネスコンテキストに基づいて優先順位付けし、実際の修正アクションに結びつける判断は、2027年時点でも人間の領分であり続けるだろう。

Human-in-the-Loop再定義 ── 「監督者」から「戦略設計者」への構造転換と実装標準

AI自律ペンテストの産業化は、人間の役割を「不要にする」のではなく「再定義する」プロセスだ。従来のHuman-in-the-Loop(HITL)モデルでは、人間がスキャン設定を行い、ツールを操作し、結果を解釈してレポートを書くという「実行者」だった。2026年以降のHITLでは、人間は以下の3層で機能する。

第1層:戦略設計者(Strategy Designer) ── AIエージェントの攻撃スコープを定義し、ビジネスコンテキストに基づいたリスクの優先順位を設定する。Penligentの「Drop and Go」で自動化されるのは戦術レベルの判断であり、「どのアプリケーションを、どの攻撃面から、どの程度の深度で検証するか」という戦略レベルの判断は人間が保持する。セキュリティ戦略は、ビジネスの制約を理解した上でないと絵に描いた餅になる──これは筆者がセキュリティ設計・戦略策定の現場で繰り返し確認してきた原則だ。

第2層:異常評価者(Anomaly Evaluator) ── AIが発見した脆弱性のうち、ビジネスインパクトの評価が困難なもの、コンテキスト依存の判断が必要なものを精査する。XBOWやPenligentが「PoCで証明された脆弱性」を提示した後、その修正優先度をビジネスリスクと照合して判断するのは人間の役割だ。重大な発見事項の修正にかかる中央値は50日(Bright Defense、2026年統計)であり、この修正プロセスのガバナンスは完全自動化の対象外となる。

第3層:例外ハンドラー(Exception Handler) ── AIが検出できない脆弱性クラス(ビジネスロジック脆弱性、複合的な認可フロー欠陥、ソーシャルエンジニアリング起点の攻撃パス)を手動で検証する。この層は「ブティックサービス」として残存するが、需要は減少するのではなく、むしろ高度化する。AIが低〜中難度の脆弱性を効率的に掃討することで、人間専門家はより高難度の攻撃パス発見に集中できるようになるからだ。

継続的ペンテストの実装標準としては、日次でAI自律評価を実行し、人間が異常と新規発見事項をレビューするモデルが経済的に実現可能になっている。NetSPIは2026年5月にAI駆動の継続的ペンテストサービスを発表しており、ポイントインタイム診断から常時検証への移行が商用サービスレベルで加速している。Microsoft Agent Governance Toolkitが提示するサブミリ秒ポリシー実行は、AIエージェントの自律動作を企業統治の枠組み内に収めるための実装パターンとして参照すべきだ。

2026年時点での実装推奨は以下のとおりだ。社内開発アプリケーションにはShannon Lite(ホワイトボックス、ソースコード解析+実行時エクスプロイト)を日次またはCI/CDパイプライン統合で適用し、外部公開サービスにはPenligentまたはXBOW(ブラックボックス、200+ツールオーケストレーション)を週次〜日次で実行する。オープンソースで完全管理が必要な環境ではPentAGI(MIT License、セルフホスト、ナレッジグラフ対応)をベースに構築し、BlacksmithAIの階層型エージェント設計を参考にカスタマイズする。いずれの構成でもHITL3層モデル(戦略設計・異常評価・例外ハンドリング)を組織的に定義し、AIの自律範囲と人間の介入ポイントを明文化することが、「2030年非AI利用=過失」時代に向けた移行の第一歩となる。

FAQ

AI自律ペンテストツールは本当に手動ペンテストを代替できるのか?

既知の脆弱性パターンの検出・エクスプロイト実行においてはAIが人間を凌駕する段階に達している。XBOWはベンチマークで人間の86倍の速度を記録した。しかし、ビジネスロジック脆弱性や組織固有のコンテキストに依存する攻撃パスの発見では人間の創造的推論が依然必要であり、完全代替ではなく役割再定義が正確な表現だ。

PenligentとShannon Liteの使い分けはどうすればよいか?

Penligentはブラックボックス型で外部公開サービスの脆弱性検証に適し、200以上のツールをオーケストレーションする。Shannon Liteはホワイトボックス型でソースコードアクセスが必須だが、96.15%のベンチマークスコアを記録しており、社内開発アプリケーションのCI/CDパイプライン統合に最適だ。両者は代替ではなく補完関係にある。

オープンソースのAIペンテストツールで本番環境を安全にテストできるか?

BlacksmithAIとPentAGIはいずれもDocker環境内のサンドボックスで動作するが、本番環境への適用には追加の安全策が必要だ。PenligentのSafe Mode相当の機能(破壊コマンドの代わりに無害なPoCを実行)を自前で実装するか、ステージング環境でのテスト実行を推奨する。

XBOWベンチマークとは何か?

PortSwigger・PentesterLab・パブリックCTF大会から収集された104のWebセキュリティチャレンジで構成される評価フレームワーク。SQLインジェクション、RCE、SSRF、Padding Oracle攻撃など実在する脆弱性クラスをテストする。Shannon Liteは96.15%、XBOW自身は85%のスコアを記録しており、商用DASTツールの30〜40%を大幅に上回る。

AI自律ペンテストのコストは従来手法と比べてどの程度削減できるか?

XBOWの事例では、人間ペンテスター40時間分の作業を28分で完了し、時間ベースでは約86倍の効率化を達成している。AI自律脆弱性ハンティングの比較分析では従来ペンテストの1/10コストが示されており、継続的実行モデルでは年間契約ベースでさらに単価が低下する傾向にある。

Google Big SleepとAISLEのゼロデイ発見はペンテスト産業にどう影響するか?

Big SleepによるSQLiteゼロデイ(CVE-2025-6965)やAISLEによるOpenSSL 12件のゼロデイ発見は、AIが「既知パターンの再検出」から「未知脆弱性の新規発見」へ質的転換したことを示す。この能力が産業化されれば、ゼロデイ発見は少数の精鋭リサーチャーの専売特許ではなくなり、防御側のAI活用が攻撃者との非対称性を是正する可能性がある。

2027年までにペンテスト組織はどう準備すべきか?

まず、AI自律ペンテストツールの選定とPoC実施を2026年内に開始すべきだ。HITL3層モデル(戦略設計・異常評価・例外ハンドリング)を組織的に定義し、既存のペンテスターはAIエージェント管理・ビジネスロジック脆弱性特化・レッドチーム演習のスキルセットへの移行を計画する必要がある。

参考文献