AI脆弱性発見自動化 ── Claude Mythos数千件ゼロデイ自律発見の産業的衝撃

2026年4月7日、Anthropicが公開したClaude Mythos Previewの技術評価レポートは、サイバーセキュリティ産業に構造的な衝撃を与えた。1,000以上のオープンソースプロジェクトを自律的にスキャンし、23,019件の脆弱性を検出、うち6,202件が高・重大深刻度と判定された。27年間OpenBSDの専門家レビューとファジングテストを潜り抜けてきたTCP SACK実装の整数オーバーフロー、17年間FreeBSDに残存していたリモートコード実行脆弱性（CVE-2026-4747）、さらに16年間FFmpegのH.264デコーダに潜んでいたバグ——いずれも人間の目では見つけられなかった欠陥を、AIが50ドル未満のコストで発見した。同時期にGoogleのThreat Intelligence Groupは、AIが生成したゼロデイエクスプロイトが実環境で初めて確認されたと報告している。当研究所が先に分析したAI自律ゼロデイ発見206件急増の防御設計で警告した「パッチより発見が速い時代」は、もはや将来の予測ではなく現実の産業課題となっている。

Claude Mythos Previewが実証した自律脆弱性発見の技術的到達点

Claude Mythos Previewの技術的到達点を理解するには、従来のAIモデルとの比較が不可欠である。Anthropicのレッドチーム評価によれば、Mythos Previewは「最も熟練した人間を除くすべてのセキュリティ研究者を凌駕する」レベルのコーディング・脆弱性発見能力に達している。具体的な成果として、Webブラウザの脆弱性4件を連鎖させたエクスプロイトを自律的に構築し、JITヒープスプレーによるレンダラーサンドボックスとOSサンドボックスの二重脱出を達成した。これは単一の脆弱性を見つけるだけでなく、複数の欠陥を戦術的に組み合わせて実用的な攻撃チェーンを構成できることを意味する。

wolfSSLにおける証明書偽造脆弱性の発見も注目に値する。wolfSSLは数十億台のデバイスで使用されるオープンソース暗号ライブラリであり、この脆弱性により攻撃者がTLS証明書を偽造可能になる。Mythos Previewはこの欠陥を自律的に発見し、エクスプロイトコードまで生成した。発見から武器化までの全工程がAI単独で完結した点が産業的に重要である。

数値面では、1,000以上のオープンソースプロジェクトをスキャンし23,019件の問題を特定、うち6,202件が高・重大深刻度と判定された。実世界コードベースに対するエクスプロイト成功率は72.4%に達し、従来のAIモデルがほぼゼロだったことと比較すると質的な転換である。コスト面では、個別の発見実行が50ドル未満、1,000回のバッチ実行でも約20,000ドルと、従来の人手によるペネトレーションテスト（1案件あたり50,000〜200,000ドル）と比較して1〜2桁安価である。この「精度と経済性の同時達成」が、AI自律ペンテストツール市場全体の構造転換を加速している。

技術的に最も印象的なのは、OpenBSDのTCP SACK実装に潜んでいた27年間の整数オーバーフローである。OpenBSDはセキュリティを最優先に設計されたOSであり、コードベースは複数の専門家監査、数百万回のファジングテストを経てきた。にもかかわらず、Mythos Previewは単一のスキャフォールド実行でこの欠陥を検出した。わずか2パケットでTCP通信中のOpenBSDホストをクラッシュさせるDoS脆弱性であり、SACKホールリスト（連結リスト）の状態追跡における整数オーバーフロー条件が根本原因である。発見コストは50ドル未満——27年間人間が見つけられなかったバグを、AIがコーヒー1杯分のコストで見つけたことになる。

CVE-2026-4747：17年間潜伏したFreeBSD NFS RCEの発見からエクスプロイト化まで

CVE-2026-4747は、Claude Mythos Previewの攻撃能力を最も具体的に示す事例である。FreeBSDのRPCSEC_GSS実装（sys/rpc/rpcsec_gss/svc_rpcsec_gss.c）に存在するスタックバッファオーバーフローで、svc_rpc_gss_validate()関数がRPCヘッダを128バイトのスタックバッファに再構築する際、クレデンシャルボディ（oa_length バイト）のサイズチェックを行わない。この欠陥は17年間FreeBSDに存在し、kgssapi.koカーネルモジュールがロードされNFSサーバーが到達可能なすべてのFreeBSDシステム（13.5、14.3、14.4、15.0の各バージョン）に影響する。

FreeBSDセキュリティアドバイザリ（FreeBSD-SA-26:08.rpcsec_gss）が2026年3月26日に公開されると、Claudeはわずか3日後の3月29日に完全なルートシェル取得を可能にするエクスプロイトを完成させた。実際の「思考」時間は約4時間、リクエストから機能的なエクスプロイト完成まで約8時間であった。技術的に注目すべきは、Claudeが自律的に考案した15ラウンドの攻撃戦略である。まずカーネルメモリを実行可能にし、その後14パケットにわたって32バイトずつシェルコードを書き込む——この段階的なメモリ操作戦略は、単純なバッファオーバーフロー攻撃を超えた高度な判断力を示している。

筆者は脆弱性診断・ペネトレーションテストの実務経験を持つが、この種のカーネルレベルRCEエクスプロイトの開発には通常、熟練した研究者でも数週間から数ヶ月を要する。プロトコルやヘッダ一つの設定ミスが致命的な脆弱性になり得ることは実務で体得してきたが、AIがアドバイザリ公開からわずか8時間で多段階カーネルエクスプロイトを完成させる現実は、脆弱性管理のタイムラインを根本から再定義するものである。

この事例が示す産業的含意は明確である。パッチ適用までの平均期間が43日（Verizon 2026 DBIR）である一方、AIによるエクスプロイト生成は数時間——防御側と攻撃側の時間差は2桁以上に拡大している。Mandiantの M-Trends 2026 レポートによれば、2026年にはCVE公開後24時間以内にエクスプロイトが出回る割合が28.3%に達した。さらに一部の事例では、パッチからエクスプロイト完成まで最短30分という記録も報告されている。LLMディスアセンブラがパッチを逆解析し、根本的な欠陥を特定し、エクスプロイトを開発し、ターゲットスキャンを開始する——この一連のプロセスがパッチ公開当日に完結する時代に突入したのである。

CVE年間59,427件予測と「パッチより発見が速い」時代の脆弱性管理崩壊

2026年2月、脆弱性対応組織FIRSTは年間CVE予測を発表し、2026年の中央値を59,427件と算出した。90%信頼区間では30,012件から117,673件の幅があり、現実的シナリオとして70,000〜100,000件のCVE発行もあり得るとされる。2027年は中央値51,018件、2028年は53,289件で上限は約193,000件に達する可能性がある。この爆発的増加の一因がAI支援による脆弱性発見の工業化であることは、当研究所のAI発見ゼロデイCVE急増206件の構造分析で詳述した通りである。

この数値を脆弱性管理の実務に落とし込むと、産業的な崩壊の構図が浮かび上がる。年間59,427件は1日あたり約163件の新規CVEを意味する。SOCチームが各CVEのトリアージに平均30分を要すると仮定すると、毎日81.5人時の工数が純粋なトリアージだけで発生する。実際にはパッチテスト、適用、検証まで含めれば工数は数倍に膨らむ。連邦政府機関のパッチ適用期限が3日に短縮されたCISA指令を考慮しても、人的資源によるパッチ管理は物理的に追いつかない規模である。

Mythos Previewの発見した脆弱性のうち99%以上が開示時点で未パッチであったという事実は、この問題の深刻さを端的に示す。Project Glasswingを通じてAnthropicが530件の高・重大深刻度バグをメンテナーに開示したが、パッチ済みはわずか75件（14%）にとどまっている。オープンソースメンテナーのリソース不足は以前から指摘されていたが、AIによる大量発見がこの構造的脆弱性を一気に表面化させた形である。

従来の脆弱性管理ライフサイクルは「発見→報告→パッチ開発→テスト→適用」の線形プロセスで設計されていた。各フェーズに数日〜数週間のバッファがあり、その間にセキュリティチームは対応を計画できた。しかし2026年の現実では、AIが脆弱性を発見してから平均10時間でエクスプロイトが完成し、一部では10〜15分・1ドル未満で攻撃コードが生成される。この「時間ゼロ化」により、パッチベースの防御モデルは原理的に機能不全に陥っている。筆者がSOC構築・SIEM導入に携わった経験から言えば、SOCの価値はツールではなくアラートから判断までの人間のプロセスにあるが、1日163件の新規CVEと10時間以内のエクスプロイト化という現実は、その人間のプロセスが追いつかない領域に到達したことを意味する。

Google Big Sleep・Project Glasswingと防御側AIの産業構造

攻撃側のAI能力向上に対し、防御側もAI武装を急速に進めている。Anthropicは2026年4月、Mythos Previewの公開と同時にProject Glasswingを発表した。1億ドルのモデル利用クレジットを投資し、Amazon AWS、Apple、Google、Microsoftを含む当初11社、その後約150組織にまで拡大したパートナーシップである。目的は、敵対的なアクターが類似のAI能力を兵器化する前に脆弱性を発見・対処することにある。

Project Glasswingの初月成果として、パートナー組織全体で10,000件以上の高・重大深刻度脆弱性が特定された。Claude Opus 4.7のセキュリティツール機能を通じたエンタープライズ顧客向けには2,100件以上の脆弱性がパッチ適用された。しかし、メンテナーへの開示ベースでは530件中75件（14%）のパッチ率にとどまっており、「AIが見つけても人間が直せない」というボトルネックが顕在化している。

一方、Googleも防御側AIの進化を加速している。DeepMindとProject Zeroが共同開発したBig Sleepエージェントは、SQLiteの重大脆弱性（CVE-2025-6965）を含む20件以上のリアルワールドバグを発見した。2026年5月には、GoogleのThreat Intelligence Group（GTIG）が「脅威アクターがAIを使ってゼロデイエクスプロイトを開発し、実環境のインフラに対して展開した」ことを初めて確認したと報告した。Big SleepがこのAI生成エクスプロイトの脆弱性を事前に特定し、脅威が武器化される前に「遮断」したという。さらにGoogleは、脆弱性の発見だけでなく自動修正まで行うCodeMenderエージェントの実験を開始している。これはGeminiモデルの推論能力を活用し、コード脆弱性の自動パッチ生成を目指すものである。

防御側の産業構造としては、BAS（Breach and Attack Simulation）市場が急拡大している。NodeZero（Horizon3.ai）、Cymulate、Pentera、AttackIQ、Picus Securityといった主要プレイヤーがAI機能を統合し、「攻撃者と同じ速度で防御を検証する」ことを目指している。AI自律ペンテスト70ツール乱立の産業構造で分析したように、NodeZeroの170,000件の実証事例やPenligentの200+ツール統合、XBOWの28分完遂が「2027年手動廃止99%」予測の技術的根拠を形成している。しかし、ランタイム防御の導入は脆弱性バックログの95%以上を削減し、悪用可能リスクの90%以上を1時間以内に緩和する効果があるとされながらも、実際の普及率は限定的である。Microsoftは2026年6月にエージェント型脆弱性スキャン、ローカルAIエージェント保護（Defender統合）、統合IDリスクスコアリングをリリースし、大手プラットフォーマーによる防御側AI武装が本格化している。

2026年後半に向けた実装設計：BAS予算シフト・ランタイム防御・AI駆動パッチ自動化

「AIが防御より速い」時代における脆弱性管理の再設計は、3つの柱で構成される。第一にBAS予算シフト、第二にランタイム防御の全面導入、第三にAI駆動パッチ自動化のパイプライン構築である。

BAS予算シフトについては、従来の年次・四半期ペネトレーションテストから、継続的なAI駆動攻撃シミュレーションへの移行が不可避となっている。予算配分の目安として、セキュリティ予算の15〜20%をBASプラットフォームに割り当てることが推奨される。選定基準は、AI統合の深度（単なるスキャンか、エクスプロイトチェーン構築まで行うか）、カバレッジ（ネットワーク・Web・クラウド・API・OTの横断性）、およびMITRE ATT&CKフレームワークとの整合性である。Picus Securityのレポートが指摘するように、攻撃者が数分で動く時代に防御者が数日かけて対応するモデルは崩壊しており、BASによる継続的検証が唯一の現実的対策である。

ランタイム防御は、パッチ適用の時間差を埋めるための緊急措置として位置づけられる。具体的には、RASP（Runtime Application Self-Protection）、eBPFベースのカーネルレベル監視、マイクロセグメンテーション、およびサンドボックスの多層化が該当する。特にMythos Previewが実証したブラウザサンドボックス二重脱出に対しては、仮想化ベースの分離（Hyper-V Container、gVisor等）の採用が有効である。筆者の経験では、全国規模のセキュリティサービスでは「止められない」という制約が技術的判断のすべてを支配するが、ランタイム防御はまさにこの「止めずに守る」要件に適合する技術群である。導入にあたっては、パフォーマンスオーバーヘッド（通常5〜15%）とセキュリティ効果のバランスを事前検証することが重要である。

AI駆動パッチ自動化は、GoogleのCodeMenderやAnthropicのClaude Opus 4.7セキュリティツールが先行する領域である。実装設計としては、(1) AI脆弱性スキャン→(2) パッチ候補の自動生成→(3) テスト環境での自動検証→(4) ステージング環境でのカナリアデプロイ→(5) 本番適用のパイプラインを構築する。CISAの最新指令が最高リスク脆弱性のパッチ期限を3日に設定している現状では、この自動化パイプラインなしにコンプライアンスを維持することは困難である。ただし、AI生成パッチの品質保証は未成熟であり、カーネルやクリティカルインフラへの自動適用には人間のレビューゲートを設けるべきである。Project Glasswingでのパッチ率14%という数値は、自動生成と自動適用の間にある品質の壁を示している。

組織設計としては、CVSSベースの優先度付けから、エクスプロイタビリティ（実際に悪用可能か）ベースの優先度付けへの移行が不可欠である。CISAのKEV（Known Exploited Vulnerabilities）カタログとMandiantのエクスプロイト検知データを組み合わせ、「実際に武器化されている脆弱性」に集中投資するアプローチが現実的である。年間59,427件のCVEを全件対応する組織は存在しないが、実際にエクスプロイトされる脆弱性は全体の5〜10%程度であり、この層へのリソース集中がROIを最大化する。

FAQ

Claude Mythos Previewとは何か？

Anthropicが2026年4月7日に公開した未リリースのフロンティアAIモデルで、ソフトウェア脆弱性の自律的な発見・エクスプロイト化に特化した能力を持つ。1,000以上のオープンソースプロジェクトから23,019件の脆弱性を検出し、実世界コードベースに対する攻撃成功率72.4%を達成した。

27年間見つからなかったOpenBSDの脆弱性とは？

OpenBSDのTCP SACK実装における整数オーバーフロー脆弱性で、1998年から27年間存在していた。SACKホールリストの状態追跡に欠陥があり、わずか2パケットでTCP通信中のホストをクラッシュさせるDoS攻撃が可能である。数百万回のファジングテストと複数の専門家監査をすり抜けてきた。

CVE-2026-4747はどの程度深刻か？

FreeBSDのRPCSEC_GSS実装におけるリモートコード実行（RCE）脆弱性で、kgssapi.koカーネルモジュールがロードされたシステムに影響する。攻撃者はネットワーク経由でカーネルレベルのルート権限を取得可能であり、17年間パッチなしで存在していた。FreeBSD 13.5〜15.0の複数バージョンが影響を受ける。

AIによる脆弱性発見のコストはどの程度か？

Claude Mythos Previewの個別スキャン実行は50ドル未満、1,000回のバッチ実行で約20,000ドルである。FFmpegの16年前の脆弱性発見には約10,000ドルを要した。従来のペネトレーションテスト（1案件50,000〜200,000ドル）と比較して1〜2桁安価であり、AI自律ペンテストの経済性分析でも指摘されている通り、コスト構造の根本的転換が起きている。

Project Glasswingとは何か？

AnthropicがMythos Preview公開と同時に発表した防御的セキュリティイニシアチブで、1億ドルのモデル利用クレジットを投資。AWS、Apple、Google、Microsoftを含む約150組織が参加し、敵対的アクターより先に脆弱性を発見・修正することを目的とする。初月で10,000件以上の高・重大深刻度脆弱性を特定した。

2026年のCVE発行件数はどこまで増えるか？

FIRSTの2026年2月予測で中央値59,427件、90%信頼区間で30,012〜117,673件と算出されている。AI支援による脆弱性発見の工業化が主因であり、1日あたり約163件のペースで新規CVEが発行される計算となる。2028年には上限約193,000件の可能性も示されている。

企業はどのような防御策を優先すべきか？

3つの柱が推奨される。(1) BAS（Breach and Attack Simulation）への予算シフトによる継続的攻撃検証、(2) RASP・eBPF・マイクロセグメンテーションによるランタイム防御の導入、(3) AI駆動パッチ自動化パイプラインの構築である。CVSSベースからエクスプロイタビリティベースの優先度付けへの移行も不可欠である。

参考文献

Assessing Claude Mythos Preview's cybersecurity capabilities — Anthropic, 2026年4月
Project Glasswing: Securing critical software for the AI era — Anthropic, 2026年4月
Project Glasswing: An initial update — Anthropic, 2026年5月
MAD Bugs: Claude Wrote a Full FreeBSD Remote Kernel RCE with Root Shell (CVE-2026-4747) — Calif.io, 2026年3月
FIRST Releases 2026 Vulnerability Report — FIRST, 2026年2月
AI Broke Vulnerability Management — The Hacker News, 2026年6月
2026: The Year of AI-Assisted Attacks — The Hacker News, 2026年5月
Cloud CISO Perspectives: Big Sleep agent — Google Cloud Blog, 2026年
Anthropic: Claude Mythos identified 10,000+ software flaws — Help Net Security, 2026年5月
FreeBSD-SA-26:08.rpcsec_gss — FreeBSD Project, 2026年3月

Claude Mythos 数千件ゼロデイ自律発見の衝撃 ── 27年生存OpenBSD・17年FreeBSD RCE・24時間エクスプロイト化が突きつける「AIが防御より速い」2026年脆弱性管理の産業崩壊