2025年末、AIの世界に激震が走った。Meta(旧Facebook)のチーフAIサイエンティストとして12年間君臨してきたヤン・ルカン(Yann LeCun)が退社を発表し、「ワールドモデル」に特化した新会社AMI Labs(Advanced Machine Intelligence Labs)の設立に乗り出したのである。€500M(約800億円)規模の資金調達を進め、評価額は€3B(約4,800億円)に達すると報じられている。同時期、Google DeepMindはGenie 3を発表し、Fei-Fei Liが率いるWorld Labsも急速に事業を拡大している。大規模言語モデル(LLM)の次を賭けた「ワールドモデル戦争」が本格化した。

LeCunの決断 ── なぜMetaを去ったのか

2025年12月、ルカンはMetaを正式に退社した。2013年にFacebook AI Research(FAIR)を創設して以来、同社の基礎研究を牽引してきた人物の離脱は、業界に大きな衝撃を与えた。

背景には、Metaの戦略転換がある。マーク・ザッカーバーグCEOは、Scale AIの元CEO Alexandr Wangを招聘し、新設のSuperintelligence Labsの下で短期的な製品開発を優先する方針へと舵を切った。OpenAIやGoogleとの競争で出遅れを取り戻すべく、基礎研究よりも即戦力となるAI製品の投入を急いだ形だ。

ルカンにとって、これは許容できない方向転換だった。彼は長年、現行のLLMアーキテクチャには本質的な限界があり、真の汎用人工知能(AGI)には至らないと主張してきた。その解決策として提唱してきたのが「ワールドモデル」であり、Metaがその研究から撤退するなら、自ら新天地を求めるほかなかった。

AMI Labsの本社はパリに置かれる。ルカンは「シリコンバレーは生成モデルに完全に催眠術をかけられている。この種の研究はシリコンバレーの外、パリでやらなければならない」と語っている。CEOには、ルカンの元同僚でAI医療スタートアップNablaを創業したAlexandre LeBrunが就任する予定だ。

ワールドモデルとは何か ── LLMとの根本的な違い

「ワールドモデル」とは、AIが外部環境の内部表現を構築し、因果関係のシミュレーションや未来予測を行うアーキテクチャである。テキストの次の単語を予測するLLMとは、根本的なアプローチが異なる。

LLMは膨大なテキストデータから統計的なパターンを学習し、与えられた文脈に対して最も確率の高い続きを生成する。この手法は驚くべき成果を上げてきたが、いくつかの本質的な限界を抱えている。

第一に、「ハルシネーション(幻覚)」の問題がある。2025年の研究論文によれば、LLMは計算可能なすべての関数を学習することはできず、汎用的な問題解決器として使用する限り、必然的にハルシネーションを起こす。流暢で一貫性のある文章を生成しながら、事実として誤っている情報を出力してしまうのだ。

第二に、推論能力の限界がある。マルチホップ質問応答のシナリオでは、必要な知識を保持していても、複数の関連付けが必要な場合に正確な結果を導けないことがある。「Aはである」という情報から「BはAである」を推論できない「逆転の呪い」も報告されている。

これに対し、ワールドモデルは物理法則を理解し、永続的なメモリを維持し、複雑なアクションを計画する能力を持つ。視覚的・空間的なデータから学習し、現実世界のダイナミクスを内部的にシミュレートすることで、「次の単語を予測する」のではなく「世界がどう変化するかを予測する」のである。

JEPA ── ルカンが提唱する技術的基盤

AMI Labsが採用する技術的基盤となるのが、ルカンが2022年に提唱した「Joint-Embedding Predictive Architecture(JEPA)」である。これは、人間に近いAIを実現するための第一歩として位置づけられている。

JEPAの基本的な仕組みはこうだ。まず、関連する入力のペア(例えば動画の連続フレーム)を取得する。エンコーダーが各入力を抽象的な表現に変換し、本質的な特徴のみを抽出する。そして予測モジュールが、現在のフレームの表現に基づいて次のフレームの抽象的な表現を予測する。

重要なのは、JEPAが入力空間ではなく「埋め込み空間」で予測を行う点だ。ピクセルレベルの詳細を再現するのではなく、意味的に重要な特徴のみを予測対象とする。これにより、表面的な変動(照明の変化やノイズなど)に惑わされず、本質的なダイナミクスを捉えることができる。

Metaは2023年にI-JEPA(画像向け)、2024年にV-JEPA(動画向け)を発表した。V-JEPAは、動画内のマスクされた部分を抽象的な表現空間で予測する非生成モデルであり、「世界のより根拠のある理解に向けた一歩」とルカンは述べている。

2025年12月には、言語にJEPAを適用したVL-JEPA(Vision-Language JEPA)の論文が公開された。従来のVLM(Vision-Language Model)がトークンを自己回帰的に生成するのに対し、VL-JEPAはテキストの連続埋め込みを予測する。同等の性能を発揮しながら、学習可能なパラメータ数は50%削減されたという。

三つ巴の覇権争い ── DeepMindとWorld Labs

ワールドモデル開発の最前線では、AMI Labs以外にも強力なプレイヤーが鎬を削っている。

Google DeepMind: Genie 3

Google DeepMindは2025年8月に研究プレビューを発表し、2026年1月29日にGenie 3を正式公開した。これは「史上初のリアルタイムインタラクティブな汎用ワールドモデル」と位置づけられている。

Genie 3は、テキストプロンプトから720p解像度、24fpsでリアルタイムに探索可能な動的世界を生成する。物理的一貫性が数分間維持され、最大1分前に生成した内容を「記憶」して参照できる。DeepMindの研究ディレクターShlomi Fruchterは「特定の環境に限定されない。フォトリアリスティックな世界も想像上の世界も、その間のあらゆるものも生成できる」と説明している。

Genie 3は教育体験やゲーム、クリエイティブなプロトタイピングへの応用が見込まれるが、DeepMindが真に狙うのは汎用タスク向けのエージェント訓練である。「ワールドモデルはAGIへの道、特に現実世界のシナリオをシミュレートすることが難しいエンボディードエージェントにとって鍵になる」とFruchterは述べている。

World Labs: Large World Models

「AIのゴッドマザー」と称されるFei-Fei Liが共同創業したWorld Labsも、急速に存在感を高めている。2024年に$230Mの資金調達でステルスモードを脱し、評価額は$1Bを超えてユニコーン企業となった。

2025年11月、World Labsは初の商用製品「Marble」をリリースした。テキストプロンプト、写真、動画、3Dレイアウト、パノラマから編集可能な3D環境を生成するツールである。Fei-Fei Liは「Marbleは真に空間的に知能を持つワールドモデルの第一歩」と述べている。

2026年1月21日には「World API」を発表し、開発者やロボティクス企業に向けて「Large World Models(LWM)」へのアクセスを提供開始した。LWMは現実世界の物理法則と幾何学的構造を理解し、「空間的知能(Spatial Intelligence)」を実現する。World Labsはこれを、テキストベースのLLMや2D動画生成の次のフロンティアと位置づけている。

産業インパクト ── ロボティクスと自動運転の革命

ワールドモデルの真価は、「エンボディードAI」──物理的な身体を通じて現実世界と相互作用するAI──において発揮される。

長年、ロボティクス研究者は「Sim-to-Realギャップ」に悩まされてきた。単純化されたシミュレータで訓練されたロボットが、現実世界の複雑さに直面すると機能しなくなる問題である。ワールドモデルは、より現実に近い環境をシミュレートすることで、このギャップを埋める可能性を持つ。

専門家の予測では、2026年末までに、World Labsのモデルを使用して未知の環境をリアルタイムでナビゲートする「クローズドループ」ロボティクスシステムが登場する可能性がある。例えば、周囲の3Dマップを瞬時に構築しながら飛行する捜索救助ドローンなどが想定されている。

自動運転分野でも、ワールドモデルへの期待は高い。2026年1月のCES 2026で、NVIDIAは自動運転開発向けのオープン推論モデル「Alpamayo」を発表した。また、MobileyeはロボティクススタートアップMentee Roboticsの買収計画を発表し、自動運転とロボティクスの両分野で共通する「Physical AI」スタックの構築を目指している。

OpenDriveLab Challenge 2025では「汎用化可能なエンボディードシステムに向けて」をテーマに、ワールドモデルとエンドツーエンド2.0パラダイムがロボティクスと自動運転の両分野で議論された。NeurIPS 2025のワークショップでも、「受動的な予測を超えて、能動的で目標駆動型の物理・仮想世界との相互作用に向けて」ワールドモデルを進化させる取り組みが報告されている。

今後の展望 ── 覇権はどこに

ワールドモデル競争の行方を占ううえで、いくつかの注目点がある。

まず、技術的アプローチの違いである。AMI LabsのJEPAは埋め込み空間での予測に注力し、World Labsは3D空間理解を重視し、DeepMindのGenie 3はリアルタイムインタラクティブ生成に強みを持つ。これらが補完的に発展するのか、一つのアプローチが支配的になるのかは未知数だ。

次に、LLMとの関係である。ワールドモデル推進派は「LLMだけではAGIに到達できない」と主張するが、LLMが不要になるわけではない。実際、2025年9月にはLLMにJEPAを適用する「LLM-JEPA」も発表されている。最終的には、言語理解(LLM)と世界理解(ワールドモデル)を統合したハイブリッドアーキテクチャが主流になる可能性が高い。

最後に、商業化のスピードである。World LabsはすでにMarbleとWorld APIで収益化を開始している。DeepMindはGenie 3をAI Ultraサブスクリプションの一部として提供している。AMI Labsは2026年前半の正式ローンチを目指しており、どのプレイヤーが先に大規模な産業応用を実現するかが焦点となる。

ルカンは「LLMに賭けた数十億ドルに対する最大の逆張り」を仕掛けた。この賭けが成功するか否かは、AIの未来を左右する分水嶺となるだろう。

FAQ

ワールドモデルとLLMの違いは何ですか?

LLMはテキストの次の単語を予測するのに対し、ワールドモデルは物理世界のダイナミクスを内部的にシミュレートし、因果関係の理解や未来予測を行う。視覚的・空間的データから学習し、エージェントが環境と相互作用する際の意思決定を支援する。

JEPAとは何ですか?

Joint-Embedding Predictive Architecture(JEPA)は、ヤン・ルカンが2022年に提唱したアーキテクチャ。入力のペア(例: 動画の連続フレーム)を抽象的な表現に変換し、埋め込み空間で予測を行う。ピクセルレベルではなく意味的な特徴を予測対象とすることで、効率的な学習を実現する。

AMI Labsはいつ正式にローンチしますか?

2026年前半の正式ローンチを目指しているとされる。本社はパリに置かれ、€500M規模の資金調達により評価額€3B(約4,800億円)での設立が見込まれている。

ワールドモデルはどのような産業に応用されますか?

ロボティクス、自動運転、AR/VR、教育、ゲームなど幅広い分野への応用が期待される。特に、現実世界のシミュレーションが必要なエンボディードAI(身体を持つAI)において、訓練環境の構築や意思決定支援に活用される見込みである。

LLMは不要になるのですか?

不要になるわけではない。言語理解はAIにとって依然として重要な能力であり、ワールドモデルとLLMを統合したハイブリッドアーキテクチャが主流になると予測されている。実際、VL-JEPAやLLM-JEPAのように、両者を組み合わせる研究も進んでいる。

参考文献