2026年のアプリケーションセキュリティは、脆弱性検証の主語が人間から自律エージェントへ移る転換点にある。XBOWは2025年6月24日に「米国HackerOneランキング首位到達」と「累計約1,060件提出」を公表し、Hacktron AIは2026年2月6日にBeyondTrustのCVE-2026-1731(CVSS 9.9)の発見を公表した。いずれも、単発のスキャン高度化ではなく、探索・検証・報告を連続実行する運用モデルの実証である。
本稿は、(1) なぜ「週単位の診断」から「時間単位の継続検証」へ移るのか、(2) 自律脆弱性発見を支える技術基盤は何か、(3) 人間監督が残る領域とAppSec組織の実装課題は何か、を一次情報ベースで整理する。
1. 2025-2026年に観測された実績の意味
XBOWの2025年6月24日付ブログでは、HackerOneでの運用結果として「約1,060件の脆弱性提出」と「米国ランキング首位」が示されている。同記事は直近90日で54件のCritical、242件のHigh、524件のMedium、65件のLowがプログラムオーナーにより分類されたと説明しており、脆弱性探索が高頻度・高並列に回ることを示した。
加えてXBOWは2024年8月5日付の比較実験で、104ベンチマークにおいて20年以上の経験を持つペンテスターの40時間・85%到達に対し、同じ85%を28分で達成したと報告している。これは「人間より常に高性能」という意味ではなく、反復可能な中難度タスクを短時間で大量処理できることを意味する。
一方、Hacktron AIは2026年2月6日、BeyondTrust RS/PRAの認証前RCEであるCVE-2026-1731をAI-enabled variant analysisで発見したと公表した。BeyondTrustのBT26-02アドバイザリでもCVSS 9.9のCriticalとして公開され、公開日(2026-02-06)と対象製品が明示されている。ここで重要なのは、バグバウンティ実績とCVE発見が同時期に接続し、「自律検証が実環境で成立する」ことが別系統の証拠で確認された点である。
2. 「週単位→時間単位」を作る技術スタック
自律脆弱性発見を成立させる中核は、LLM単体ではなくワークフロー制御である。実装上は次の4層が支配的である。
- 探索計画層:対象スコープ・攻撃面・既知クラス(認可不備、注入、XSS等)をもとに仮説群を生成し、並列ジョブへ分解する。
- 実行・観測層:ブラウザ操作、HTTP再生、コード解析、ログ取得を回し、証拠(リクエスト、レスポンス、スタックトレース)をトレース可能に保持する。
- 検証層:バリアント分析で検出した候補を再現手順に落とし込み、PoC生成と成立条件の確認を行う。XBOWが説明するvalidator設計やHacktronのPoC重視方針はこの層の品質制御である。
- 提出層:影響範囲、再現手順、修正案、優先度を構造化して出力し、重複・ノイズを抑えてトリアージ可能な形に整える。
この構造が機能すると、従来は四半期・月次で行われていた診断が、コード変更や公開面変化に追随する連続検証へ移る。つまり改善対象は「1回の精度」だけではなく、「回転数×再現性×受け手負荷」の積になる。
3. 完全自律化の到達点と限界
CAI(Cybersecurity AI)の研究は、CTF文脈で高い速度優位と運用自律度を報告している。arXiv:2504.06017では特定課題で最大3,600倍、平均11倍の効率差が示され、AI対人間イベントで上位入賞実績も提示された。これらは「自律運用が現実的な計算資源で回る」ことを示す補助証拠である。
ただし、これをそのまま本番環境へ外挿するのは危険である。CTFは評価問題が明示される一方、実環境では仕様不整合、業務例外、法務制約、稼働影響が支配するためである。したがって「人間必須→完全自律」の変化は、すべての工程が無人化される意味ではなく、探索・再現・一次報告の主工程が自律化され、人間の介入点が意思決定側へ後退する構造転換として解釈すべきである。
4. 人間監督が残る領域
2026年時点でも人間の責務は消えていない。残存領域は主に3つである。
- ビジネスコンテキスト解釈:同じ脆弱性でも収益影響、顧客影響、停止許容度で優先順位が変わる。これは組織固有知識を要する。
- コンプライアンス判断:スコープ境界、検証手法の許容範囲、ログ保存・通知義務、リージョン規制対応は法的責任を伴う。
- 最終リスク受容:修正延期・代替統制・公開タイミングを決めるのは経営判断であり、技術評価だけでは完結しない。
つまり人間の役割は「脆弱性を見つける人」から「証拠に基づく意思決定者」へ移る。AppSecチームの設計対象も、検出器の選定よりガバナンス接続へ重心が移動する。
5. AppSecが直面する「保証のスケール」課題と対策
自律検証が普及すると、組織は発見数の増加より先に保証能力の不足に直面する。具体的には、(a) 再現確認工数、(b) 修正優先度合意、(c) SLA内クローズ率、(d) 監査証跡整備が律速段階になる。
有効な対策は次の通りである。
- 証拠スキーマの標準化:PoC、ログ、影響範囲、再現環境を必須フィールド化し、提出品質を機械判定する。
- 二段階トリアージ:機械トリアージで重複・既知を削減し、人間は高インパクト案件に集中する。
- クラス別是正:個別チケット処理だけでなく、認可・入力検証・秘密情報管理など欠陥クラス単位で恒久対策を打つ。
- 連続検証KPI:MTTRだけでなく「時間当たり有効発見数」「再現成功率」「誤検知率」「再発率」を運用指標にする。
XBOWとHacktronの事例が示したのは、AIが人間を不要にする未来ではない。検証能力の供給曲線が急増し、受け手側の保証設計が追いつかなければ、発見は増えても安全性は上がらないという現実である。2026年の勝敗は、検出モデルの性能差より、保証をスケールさせる運用設計差で決まる。
FAQ
XBOWの「1,060件」は確定脆弱性件数か
XBOWの2025年6月24日公開情報では「submitted nearly 1,060 vulnerabilities」であり、提出件数を指す。解決済み・Triaged・重複・informativeが混在するため、運用評価では状態別に分けて解釈する必要がある。
HacktronのCVE-2026-1731発見は何が新しいのか
単一脆弱性の発見自体より、AI-enabled variant analysisを前面に出し、責任ある開示プロセスでCVE化まで到達した点が新しい。探索から公開アドバイザリまでの一連の運用が可視化された意義が大きい。
「完全自律」は人間が不要という意味か
現実には不要ではない。探索・再現・一次報告は高自律化できるが、ビジネス影響評価、法令順守判断、最終受容判断は人間責任として残る。
AppSecチームは最初に何を変えるべきか
検出ツール追加より先に、証拠フォーマット標準化と機械トリアージを整備すべきである。受け手の処理能力を上げない限り、自律検証の価値は組織成果へ転換されない。
既存の年次ペンテストは不要になるか
不要にはならない。年次・四半期の独立監査は依然必要であるが、日常運用は連続検証へ移す二層構造が2026年以降の現実解である。
参考文献
- The road to Top 1: How XBOW did it — XBOW, 2025-06-24
- XBOW now matches the capabilities of a top human pentester — XBOW, 2024-08-05
- CVE-2026-1731: Pre-Auth RCE in BeyondTrust Remote Support & PRA — Hacktron AI, 2026-02-06
- Security Advisories (BT26-02) — BeyondTrust, 2026-02-06
- CVE-2026-1731: Critical Unauthenticated Remote Code Execution in BeyondTrust — Rapid7, 2026-02-09 (updated 2026-02-16)
- CAI: An Open, Bug Bounty-Ready Cybersecurity AI — arXiv, 2025-04-09 (v2)
- Cybersecurity AI: The World's Top AI Agent for Security Capture-the-Flag (CTF) — arXiv, 2025-12-02
- Introducing Hacktron AI: An autonomous penetration test of Gumroad — Hacktron AI, 2025-08-14



