2024年、Webトラフィックの歴史的な転換点が訪れた。Thales傘下のImpervaが発表した2025年版Bad Bot Reportによれば、自動化されたボットトラフィックが全Webトラフィックの51%を占め、10年ぶりに人間のトラフィックを逆転した。悪性ボットだけで37%(前年比5ポイント増)、善性ボット(検索エンジンクローラー等)が14%を占め、人間由来のアクセスは49%に後退している。

背景には、生成AIプラットフォームの爆発的普及がある。RAGクローラーの急増、AIプラットフォームを検索の起点とするユーザーの増加、そしてrobots.txtを無視するボットの横行。これらはWeb設計・SEO戦略・インフラアーキテクチャの根本的な見直しを迫っている。本稿では、最新の定量データをもとに現状を分析し、エンジニアとCTOが取るべき具体的な対応策を体系化する。

ボットトラフィック51%超の内訳 ── 何がWebを圧倒しているのか

Imperva Bad Bot Report 2025は、2024年を通じてImpervaのグローバルネットワークで観測したトラフィックデータに基づく。同レポートによれば、悪性ボットリクエストは年間13兆件がブロックされた。悪性ボットの比率は37%で、6年連続の増加である。

注目すべきは攻撃手法の変化である。単純なボット攻撃(Simple Bot Attacks)が2023年の34%から2024年には52%に急増した。生成AIと「Bots as a Service(BaaS)」プラットフォームの登場により、高度な技術を持たない攻撃者でもボットを大量展開できるようになった。一方、旅行業界では高度なボット攻撃(Advanced Bot Attacks)が61%から41%に減少しており、量で圧倒するアプローチへの移行が見て取れる。

善性ボット14%の内訳も変化している。従来はGooglebotに代表される検索エンジンクローラーが主体だったが、現在はGPTBot(OpenAI)、ClaudeBot(Anthropic)、Bytespider(ByteDance)といったAIクローラーが急成長している。Cloudflareの2025年版Radar Year in Reviewによれば、AIクローラーのトラフィックシェアは8カ月間で2.6%から10.1%に拡大した。

AIクローラー群雄割拠 ── GPTBot・ClaudeBot・Bytespiderの勢力図

Cloudflareが2024年5月〜2025年5月に追跡したAIクローラーのデータは、各プレイヤーの戦略の違いを如実に映し出している。

GPTBot(OpenAI)は最も急成長したクローラーである。AIクローラー内シェアは2024年7月の4.7%から2025年7月には11.7%に上昇し、リクエスト総量は305%増加した。全クローラーランキングでは9位から3位に躍進している。ChatGPT Searchの本格展開に伴い、ユーザー起点のリクエスト(ChatGPT-User)も急増している。

ClaudeBot(Anthropic)はAIクローラーで2位を維持しているが、動向は複雑である。シェアは2024年7月の6%から2025年7月に約10%へ上昇したものの、生リクエスト数は2025年1月〜7月で46%減少した。これは、Anthropicがクローリングの効率化とターゲティングの精緻化を進めた結果と見られる。

Bytespider(ByteDance)は2024年前半に圧倒的なシェアを誇ったが、急速に縮小した。一部サイトではAIクローラートラフィックの約90%をBytespiderが占めていたが、2025年7月にはシェアが2.4%まで低下した。ピーク時のスクレイピング速度はOpenAIの25倍と報じられ、その攻撃的なクローリングは多くのサイト管理者の警戒を招いた。

全体では、Meta(FacebookBot等)がAIクローラートラフィックの52%を占め、Google(23%)とOpenAI(20%)を大きく上回っている。AIクローラーの活動の80%はモデル訓練目的であり、検索機能向けは18%、ユーザー起点のアクションは2%にとどまる。

クロール対クリック比の非対称性 ── 一方的な価値搾取の構造

AIプラットフォームが大量のコンテンツをクロールしながら、元サイトへのトラフィック還元がごくわずかである問題は深刻化している。Cloudflareが2025年1月〜7月のデータを分析した「Crawl-to-Click Gap」レポートは、その非対称性を定量的に示している。

Anthropic(ClaudeBot)は最も極端な比率を示し、2025年7月時点で3万8,000ページのクロールに対してわずか1ページ分のリファラルトラフィックしか生成していない。ただし、2025年3月にWeb検索とクリック可能な引用機能を追加したことで、以前と比較して87%改善された。

OpenAIは1,091クロールに対して1訪問者という比率で、主要AIプラットフォームの中では相対的にバランスが取れている。Perplexityは195クロールに対して1訪問者だが、2025年1月の54:1から257%悪化した。これはクエリ処理量の急増(2025年5月に月間7億8,000万クエリ)に対し、引用クリック率が追いついていないことを示唆する。

この構造的な非対称性は、コンテンツ制作者・パブリッシャーにとって深刻な問題である。訓練目的のクロール(全体の80%)は本質的にトラフィック還元を伴わず、サーバーリソースだけを消費する。Web経済の根幹を支えてきた「コンテンツ提供→トラフィック獲得→収益化」のサイクルが崩れつつある。

robots.txtの限界とllms.txtの理想と現実

robots.txtによるAIクローラー制御は、理論上は有効なアプローチだが、現実は厳しい。Paul Calvanoの分析によれば、AIボットのrobots.txt非準拠率は2024年Q4の3.3%から2025年Q2には13.26%に悪化し、1年で4倍に増加した。

それでもrobots.txtによるブロックは加速している。GPTBotをブロックするサイトは2025年7月初頭の330万から560万に急増(7週間で69%増)、ClaudeBotのブロックは320万から580万に達した(81%増)。Tollbitのデータでは、AIクローラーをブロックするサイトは過去1年で336%増加している。

さらに深刻なのは、OpenAIが2025年12月にポリシーを変更し、ユーザー起点のChatGPT-Userエージェントはrobots.txtに従わないと明示した点である。訓練用のGPTBotは引き続きrobots.txtを尊重するが、ユーザーがChatGPTから直接Webページを参照する場合は制御できなくなった。

一方、robots.txtの限界を補完する試みとして、2024年9月にAnswer.AIの共同創設者Jeremy Howardがllms.txtを提案した。robots.txtがアクセス制御を担うのに対し、llms.txtはLLMがコンテンツ構造を効率的に把握するための「コンテンツキュレーション」ファイルである。2024年11月にドキュメントプラットフォームMintlifyが全面サポートを発表したことで普及が加速し、現在84万4,000以上のWebサイトがllms.txtを実装している。

しかし、致命的な問題がある。2025年8月時点で、主要AIプラットフォームは一社もllms.txtを実際に使用していない。OpenAI、Anthropic、Google、Perplexity、Microsoftのいずれもllms.txtファイルをリクエストすらしていない。Googleの検索アドボケイトJohn Muellerは「現在、llms.txtを使用しているAIシステムは存在しない」と明言している。84万サイトの実装努力は、少なくとも現時点では報われていない。

エンジニアとCTOが取るべき対応策 ── CDN・WAF・アーキテクチャの再設計

ボットトラフィックが過半数を占める現実に対し、インフラ・セキュリティ・ビジネスの各レイヤーで包括的な対応が求められる。

1. トラフィック分類と差別化レスポンス
すべてのボットを一律にブロックするのではなく、目的別に分類して対応を変えるアプローチが有効である。訓練用クローラー(全体の80%)にはキャッシュ済みの軽量HTMLを返し、検索連動型クローラー(18%)にはフルコンテンツを提供する。非準拠ボットにはrobots.txtでブロックした上で、WAFルールで追加遮断する。CDNレベルでUser-Agentごとにキャッシュポリシーを分離することが重要である。

2. レートリミットの精緻化
Cloudflareのデータによれば、フェッチャーボットのピーク時リクエスト量は毎分3万9,000リクエストに達し、DDoS攻撃と同等のインフラ負荷を生む。IPアドレス単位だけでなく、AS番号(自律システム番号)やUser-Agentグループ単位でのレートリミット設定が不可欠である。閾値超過時は429ステータスコードとRetry-Afterヘッダーを返すことで、善意のクローラーには再試行の機会を与える。

3. CDNオリジン保護の強化
JavaScript描画が必要なコンテンツをボットに提供するコストは、静的HTMLの100倍以上に達する。頻繁にクロールされるページの静的HTML版を事前生成し、ボット向けに専用のキャッシュパスを設定することで、オリジンサーバーの負荷を大幅に削減できる。共有ホスティング環境は特にボットトラフィックの影響を受けやすく、VPS(仮想専用サーバー)への移行が推奨される。

4. robots.txt + WAFの多層防御
robots.txtの非準拠率が13%を超えた現在、robots.txtだけに依存する制御は不十分である。robots.txtでブロックを宣言した上で、WAFルールやボット管理ツール(Cloudflare Bot Management、Akamai Bot Manager等)でアクセスを実際に遮断する多層防御が標準になりつつある。VercelのようなPaaS(Platform as a Service)プロバイダーも「Block AI Bots」ファイアウォールテンプレートを提供し始めている。

5. 検索トラフィック減少への備え
37%のユーザーがGoogleではなくAIプラットフォームから検索を開始するようになった現在、従来のSEO戦略だけではトラフィック維持が困難になる。FAQ構造化データ(FAQPage schema)の実装、llms.txtの設置(将来の対応に備えて)、AI検索からの引用を促進するための明確な構造化コンテンツの提供が重要である。AIプラットフォームのクロール対クリック比を改善するよう業界全体で働きかけることも必要である。

FAQ

ボットトラフィックが51%を超えたというデータの出典は?

Thales傘下のImpervaが2025年に発表した第12回Bad Bot Reportに基づく。2024年を通じたグローバルネットワークの観測データであり、悪性ボット37%、善性ボット14%、人間49%という内訳が報告されている。

自社サイトのAIクローラートラフィックを把握する方法は?

サーバーアクセスログでUser-Agentを分析する方法が基本である。GPTBot、ClaudeBot、Bytespider、FacebookBot等の文字列でフィルタリングする。Cloudflare、Akamai等のCDNを利用している場合は、ダッシュボードのBot Analyticsで可視化できる。

llms.txtを実装するメリットはあるのか?

2025年8月時点で主要AIプラットフォームはllms.txtを使用していない。しかし、84万以上のサイトが実装しており、将来的にAIプラットフォームが対応する可能性に備える意味はある。実装コストは低く(テキストファイル1つの設置)、リスクは最小限である。

robots.txtでAIクローラーをブロックしても完全には防げないのか?

その通りである。AIボットのrobots.txt非準拠率は2025年Q2時点で13.26%に達している。また、OpenAIは2025年12月にChatGPT-User(ユーザー起点のアクセス)はrobots.txtに従わない方針を明示した。完全な制御にはWAFやボット管理ツールの併用が必要である。

AIボットトラフィック増加に対して最も優先すべき対策は?

まずはトラフィックの可視化(ボット分類・比率の把握)から始めるべきである。その上で、CDNレベルでのレートリミット設定、ボット種別ごとのキャッシュポリシー分離、WAFによる非準拠ボットの遮断を段階的に実装する。

参考文献