2025年、Webの歴史において決定的な転換点が訪れた。セキュリティ企業Impervaの年次レポートによれば、全インターネットトラフィックの51%がボットによるものとなり、人間のトラフィックを初めて上回った。なかでもAIクローラー──とりわけRAG(Retrieval Augmented Generation)用のスクレイパーとAI検索インデクサー──の急増が、Webの根本的なソーシャルコントラクトを破壊しつつある。robots.txtという40年近い「紳士協定」は事実上崩壊し、パブリッシャーとインフラエンジニアは新たな防衛設計を迫られている。
ボットトラフィック51%の内訳 ── 誰がWebを消費しているのか
Impervaが2025年4月に公開した「2025 Bad Bot Report」は、業界に衝撃を与えた。全Webトラフィックの51%が自動化されたボットであり、そのうち悪性ボットが37%、良性ボットが14%を占める。前年の2023年には悪性ボットの比率は32%であったから、わずか1年で5ポイントの増加である。
Cloudflare Radar 2025 Year in Reviewの補足データはさらに詳細を明らかにしている。AIクローラーによるHTMLページリクエストは全体の4.2%に達し、AIの「ユーザーアクション」型クロール──すなわちRAGシステムがユーザーの質問に応じてリアルタイムにWebページを取得する行動──は2025年を通じて15倍に増加した。1日あたり約500億リクエストがAIクローラーから発生している計算になる。
攻撃的なAIボットの内訳も注目に値する。Impervaによれば、AI駆動攻撃の54%がTikTokのByteSpider Bot、26%がApplebot、13%がClaudeBot(Anthropic)、6%がChatGPT User Bot(OpenAI)に起因する。一方、Barracuda Networksの調査では、追跡対象のWebアプリに対してGenAI関連のリクエストが1日で50万件以上、30日間で970万件に達した事例が報告されている。
RAGクローラーの特異性 ── 従来のボットとは何が違うのか
RAGクローラーが従来の検索エンジンボットと根本的に異なるのは、そのリクエストパターンと目的にある。GooglebotやBingbotは定期的にインデックスを更新するために巡回するが、RAGクローラーはユーザーの質問ごとにリアルタイムでWebページを取得する。OpenAIのChatGPT-User Botは1ページあたり平均5回のスクレイプを行い、これは2位のMeta社ボットの5倍に達する。
この「質問駆動型クロール」は、1回のユーザークエリが100件以上のスクレイピングリクエストを生成するケースもある。AI検索サービスの利用者が増えるほど、パブリッシャーのサーバーには指数関数的な負荷がかかる。しかも、RAGシステムはページの全文を取得して要約を返すため、ユーザーが元サイトを訪問する動機が薄れる。つまりトラフィックを消費するが、トラフィックを還元しない一方通行の関係が成立している。
2025年初頭の時点で最も活発なAIボットは、ClaudeBot(Anthropic)、ByteSpider(TikTok)、PerplexityBot、DeepSeekBotの順であった。Cloudflare Radarのデータでは、GPTBotが検証済みボットトラフィックの約7.5%、Bingbotが約6%を占め、従来の検索エンジンとAIクローラーが混在する複雑な生態系が形成されている。
robots.txtの崩壊 ── 42%が無視される紳士協定
robots.txtは1994年に提案され、Webの「紳士協定」として30年以上機能してきた。しかし、AIクローラーの時代においてこの仕組みは急速に形骸化している。Tollbitの調査によれば、AIボットによるrobots.txtの非遵守率は2024年第4四半期の3.3%から2025年第2四半期には13.26%へと4倍に急増した。とりわけOpenAIのChatGPT-User Botの非遵守率は42%に達し、2025年第4四半期には全体で30%のAIボットが明示的なアクセス制限を無視しているとされる。
パブリッシャー側の対応も加速している。BuzzStreamの調査では、主要ニュースパブリッシャーの79%が少なくとも1つのAI学習用ボットをrobots.txtでブロックしており、71%がリアルタイム検索用ボットもブロックしている。GPTBotをブロックするサイトは2025年7月の330万から12月には560万へと70%増加し、ClaudeBotをブロックするサイトも320万から580万へと81%増加した。robots.txtにDisallowを記載するサイト数は年間で336%増加している。
しかし、これだけブロックが広がっても、ボット側が遵守しない以上、robots.txtは「鍵のかかっていないドア」に過ぎない。法的には、Reddit対Anthropic訴訟においてrobots.txtの非遵守が争点の一つとなっており、技術的な限界と法的責任の境界が問われている。
防衛アーキテクチャ ── 多層防御の設計原則
robots.txtに依存できない以上、パブリッシャーとインフラエンジニアは多層的な防衛アーキテクチャを構築する必要がある。2026年現在、効果的とされるアプローチは以下の5層で構成される。
第1層:TLSフィンガープリンティング
JA3/JA4フィンガープリンティングは、TLSハンドシェイク時のClientHelloパケットから、TLSバージョン・暗号スイート・拡張機能・楕円曲線・楕円曲線フォーマットの5フィールドを抽出してクライアントを識別する技術である。正規のブラウザと自動化ツール(Puppeteer、Playwright、Selenium)は異なるTLSシグネチャを持つため、最初の防御層として機能する。AkamaiのJA4フィンガープリンティングは、JA3では検出できないライブラリも識別できる。
第2層:JavaScriptチャレンジと行動分析
Chrome DevTools Protocol(CDP)の使用を検出することで、ヘッドレスブラウザによるアクセスを識別できる。さらに、マウスの動きやキーストロークのリズム、タッチスクリーンの操作パターンといった行動バイオメトリクスは、ボットが一貫して再現することが困難な人間の自然なばらつきを検出する。
第3層:レート制限とプログレッシブチャレンジ
単純なIPベースのレート制限に加え、中リスクトラフィックに対するCAPTCHAの選択的デプロイ、Proof-of-Workパズル(サーバーへの接続前に計算コストを課す仕組み)、およびハニーポット/ターピットの設置が有効である。ターピットは検出したボットに対して意図的に低速でレスポンスを返し、クローリングの効率を破壊する。
第4層:CDNレベルの統合防御
2025年7月、CloudflareはAIクローラーをデフォルトでブロックする業界初の取り組みを発表した。Webの約20%を保護するCloudflareのネットワークにおいて、管理されたrobots.txtの自動挿入、広告検出技術と連動した収益化コンテンツの選択的保護、およびAI企業にクロール課金するPay-Per-Crawlマーケットプレイスの仕組みが導入された。Associated Press、Time、Quora、Stack Overflowなどの主要パブリッシャーがこのモデルを支持している。
第5層:AI駆動のリアルタイム検出
F5 Distributed Cloud Bot DefenseやHUMAN Securityなどのソリューションは、AIを用いた行動分析でボットの進化にリアルタイムで適応する。グローバルな脅威インテリジェンスを統合し、誤検知を最小化しながら新しいボットの手口を学習する。単一の技術では不十分であり、TLSフィンガープリンティング、行動分析、IPレピュテーション、コンテキスト分析を組み合わせた多層防御が不可欠である。
法規制の転換 ── EU AI Actと著作権訴訟の衝撃
技術的防御と並行して、法規制の枠組みも急速に変化している。EU AI Actは2026年に本格施行され、汎用AI(GPAI)モデルの提供者に対して、学習データソースの開示、著作権オプトアウトの遵守、AI生成コンテンツのラベル付けを義務化した。違反した場合の制裁は年間売上の3%または1,500万ユーロに達する。
著作権訴訟も激化している。2025年最大の事件は、Bartz対Anthropic訴訟の15億ドルでの和解である。また2025年2月にはCondé Nast、The Atlantic、The Guardianなど14の主要パブリッシャーがCohere社を提訴し、2025年11月には裁判所がCohereの棄却申立てを却下した。OpenAIに対しては2026年1月に2,000万件のChatGPTログの開示命令が下されている。2025年を通じてAI著作権訴訟は30件から70件以上に倍増し、2026年はさらなる加速が予想される。
日本においても、2024年の文化審議会著作権分科会における「AI と著作権に関する考え方」を踏まえ、享受目的のスクレイピングに対する法的整理が進行中である。robots.txtの法的拘束力は各国で議論が分かれるが、EU AI Actが「機械可読な手段」によるオプトアウトとしてrobots.txtを位置付けたことは、事実上の国際標準化を意味する可能性がある。
FAQ
robots.txtでAIクローラーをブロックすれば十分か?
不十分である。Tollbitの調査によれば、AIボットの非遵守率は2025年第4四半期に30%に達し、ChatGPT-User Botに至っては42%がrobots.txtを無視している。robots.txtは法的・倫理的なシグナルとして維持すべきだが、技術的な強制力を持つ多層防御の構築が不可欠である。
RAGクローラーと従来の検索エンジンボットの違いは何か?
従来の検索エンジンボットはインデックス更新のために定期巡回するのに対し、RAGクローラーはユーザーの質問ごとにリアルタイムでWebページを取得する。1クエリあたり100件以上のリクエストを生成するケースもあり、サーバー負荷が指数関数的に増大する。さらに、全文を取得して要約を返すため、元サイトへのトラフィック還元がほぼ発生しない。
小規模サイトでも防御は可能か?
可能である。Cloudflareの無料プランでもAIクローラーのブロック機能が提供されており、CDNレベルの防御を低コストで導入できる。加えて、robots.txtの適切な設定、レート制限の導入、サーバーログの定期的な監視を組み合わせることで、一定の防御効果が得られる。
AI企業とのライセンス契約は現実的な選択肢か?
大手パブリッシャーにとっては有力な選択肢となりつつある。CloudflareのPay-Per-Crawlモデルや、Associated PressとOpenAIの提携のように、コンテンツの利用に対価を求める仕組みが整備されつつある。ただし、中小規模のサイトにとっては交渉力の非対称性が課題であり、業界団体を通じた集団交渉やプラットフォームを介した標準化が求められる。
EU AI Actは日本のパブリッシャーにも影響するか?
直接的にはEU域内での運用に適用されるが、GDPRと同様に域外適用の可能性がある。EU市場向けにサービスを提供するAI企業は学習データの開示義務を負うため、日本のコンテンツが学習データに含まれている場合、間接的に保護の恩恵を受ける可能性がある。
参考文献
- 2025 Imperva Bad Bot Report: How AI Is Supercharging the Bot Threat — Imperva (Thales Group), 2025年4月
- Cloudflare Radar 2025 Year in Review — Cloudflare, 2025年12月
- Threat Spotlight: Gray Bots – Gen AI Scraper Bots Targeting Web Apps — Barracuda Networks, 2025年4月
- AI Bots and robots.txt — Paul Calvano, 2025年8月
- Cloudflare Just Changed How AI Crawlers Scrape the Internet at Large — Cloudflare, 2025年7月
- Copyright Compliance Under the EU AI Act for GPAI Model Providers — Clifford Chance, 2025年10月
- AI Copyright Lawsuit Developments 2025 — Copyright Alliance, 2025年



