2025年末から2026年初頭にかけて、AIの世界に新たなパラダイムが出現した。Fei-Fei Liが率いるWorld Labsの「Marble」商用リリース、Google DeepMindの「Genie 3」プレビュー、Runwayの「GWM-1」発表──わずか数カ月の間に、主要プレイヤーが相次いでLarge World Models(LWM)を市場に投入している。LLMがテキストの次のトークンを予測するのに対し、LWMは3D空間の次の状態を予測する。この根本的な違いが、ロボティクス・自動運転・デジタルツインなど物理世界と交差するAI応用の地平を一変させようとしている。
World Modelsとは何か ── LLMとの根本的な違い
World Model(世界モデル)とは、環境の内部シミュレータとして機能するニューラルネットワークである。LLMがテキスト列から次の単語を確率的に予測するのに対し、World Modelは物理世界の次の状態を予測する。何が安定し、何が動き、何が壊れるのか。原因と結果の関係、行動がもたらす帰結──これらを大量のマルチモーダルデータ(画像・動画・3Dスキャン・センサーデータ)から学習する。
この区別は単なる入出力の差異ではない。LLMは言語という記号体系を通じて世界を理解するが、World Modelは幾何構造・物理法則・空間関係を直接モデリングする。重力によって物体が落下すること、剛体同士の衝突、液体の流動──こうした物理的直観をデータから獲得するのがWorld Modelの本質である。
Metaの元チーフAIサイエンティストであるYann LeCunは、2025年2月のAI Action Summit(パリ)でWorld Modelこそが「人間レベルの知能」に至る道であり、現在のLLMでは到達できないと主張した。LeCunはその信念を行動で示し、2025年12月にAMI Labs(Advanced Machine Intelligence Labs)の設立を発表。パリに本社を置き、評価額30億ユーロ(約3,500億円)、5億ユーロ(約586億円)の資金調達を目指すとされる。
Fei-Fei Liの空間知能と「Marble」の衝撃
「空間知能(Spatial Intelligence)」という概念を提唱し、World Modelsの理論的基盤を築いたのがスタンフォード大学のFei-Fei Liである。昆虫から人間まで、あらゆる動物が空間知能に依存して世界を理解し、ナビゲートし、相互作用している。ロボットが人間社会で機能するためには同じ能力が必要だ──これがLiの一貫した主張である。
Liが共同創業したWorld Labsは2024年9月に2億3,000万ドル(約345億円)のシード資金を調達し、評価額10億ドルでユニコーン企業となった。投資家にはAndreessen Horowitz、NEA、Radical Venturesに加え、Marc Benioff、Adobe Ventures、AMD Ventures、NVIDIA Venturesが名を連ねた。
2025年11月、World Labsは初の商用プロダクト「Marble」を一般公開した。Marbleはテキストプロンプト・画像・動画・パノラマ・3Dレイアウトから、永続的で編集可能かつダウンロード可能な3D環境を生成する。AIネイティブな編集ツールとハイブリッド3Dエディタを備え、フリーミアムモデルで提供されている。
さらに2026年1月にはWorld APIを公開。テキスト・画像・動画から探索可能な3Dワールドを生成する公開APIであり、非同期ワールド生成、Webレンダリング、下流ツールへのエクスポート、インタラクティブシステムへの統合をサポートする。エンジニアが自社プロダクトにWorld Modelの能力を組み込む道が開かれたことは、LLMにおけるOpenAI APIの登場に匹敵するインパクトを持つ。2026年1月時点で、World Labsは評価額約50億ドルでの追加資金調達を協議中と報じられている。
主要プレイヤーの技術動向 ── Genie・GWM-1・Cosmos
Google DeepMind「Genie」シリーズ。2024年2月にGenie 1(256×256の2Dプラットフォーマー環境生成)を発表した後、同年12月にGenie 2をリリースした。Genie 2は自己回帰型潜在拡散モデルとして設計され、アクション制御可能な3Dインタラクティブ環境を生成する。キーボード・マウスによる操作に対応し、オブジェクトインタラクション、キャラクターアニメーション、物理モデリングといった創発的能力を示した。2025年8月にはGenie 3のプレビューが公開され、リアルタイムインタラクションを維持しながら数分間にわたる環境一貫性を実現した初のイテレーションとなった。2026年1月にはGoogle AI Ultraサブスクリプション加入者(米国)に提供が開始されている。
Runway「GWM-1」。2025年12月11日、Runwayは初のGeneral World Model「GWM-1」を発表した。GWM-1はGen-4.5をベースとした自己回帰型モデルで、3つの特化バリアントを持つ。GWM-Worldsは720p・24fpsでのリアルタイム環境シミュレーションを実現し、無限に探索可能な空間を動的に生成する。GWM-Roboticsはロボットの行動に条件付けされた動画ロールアウトを予測し、反実仮想生成(代替軌道の探索)をSDK経由で提供する。GWM-Avatarsは音声駆動のインタラクティブ動画生成を行い、自然な人間の動作と表情をシミュレートする。Runwayはこれら3つのバリアントを将来的に統一モデルへ統合する構想を示している。
NVIDIA「Cosmos」。2025年1月のCES 2025で発表されたCosmosは、2万時間の動画から9,000兆トークンを学習した世界基盤モデルプラットフォームである。2025年8月にはロボットの物理的推論に特化した70億パラメータのCosmos Reasonをリリース。2026年にはCosmos Predict 2.5(合成データ生成・ロボットポリシー評価用のカスタマイズ可能な世界モデル)とCosmos Reason 2(物理世界の理解と行動のための推論VLM)の公開を予定している。早期採用企業には1X、Agile Robots、Figure AI、Waabi、XPENGなどが名を連ね、2025年末までに200万ダウンロードを記録した。
応用領域 ── ロボティクス・自動運転・デジタルツイン
ロボティクス。World Modelはロボットが動的な実世界環境で効果的に動作するための基盤技術となる。物理的に危険な試行錯誤をシミュレーション環境で行い、学習を加速させることが可能だ。Runway GWM-RoboticsのSDKはロボットポリシーの評価を可能にし、NVIDIA CosmosのReasonモデルはロボットの空間推論を強化する。従来のロボットプログラミングが「この位置にアームを動かせ」という明示的命令だったのに対し、World Modelベースのロボットは「テーブルの上のコップを取れ」という抽象的指示から環境を理解し行動計画を立てられる。
自動運転。自動運転における最大の課題は「ロングテールシナリオ」──実データで捕捉困難な稀少だが安全上重要なイベントの処理──である。World Modelはこうした極端なシナリオを生成し、安全なテストを可能にする。NVIDIA Cosmosはロボティクスデータとドライビングデータの双方で学習しており、自動運転のためのシミュレーション基盤として機能する。
デジタルツイン。物理空間の高精度な仮想レプリカであるデジタルツインは、World Modelによって大幅に高度化される。工場のレイアウト変更シミュレーション、都市計画、災害対応訓練など、物理法則に忠実な仮想環境でのシミュレーションが可能になる。エッジAIと組み合わせることで、クラウド依存を低減し、リアルタイムシステムに不可欠なミリ秒レベルの自律性を実現する。
ゲーム・エンターテインメント。Runway GWM-Worldsはプロンプトから無限に探索可能なゲーム空間を生成し、手動3Dモデリングの工数を大幅に削減する。ゲームにおけるWorld Models市場は2025年時点で12億ドル規模とされ、2030年には2,760億ドルに達するとの予測もある(PitchBook調べ)。
エンジニアが押さえるべきWorld APIの設計思想
World Labsが2026年1月に公開したWorld APIは、World Modelをプロダクトに統合するための実用的なインターフェースを提供する。その設計思想にはいくつかの重要なパターンが見られる。
非同期ファーストアーキテクチャ。3D環境の生成はLLMのテキスト生成と比較して計算コストが高い。World APIは非同期ワールド生成を前提として設計されており、リクエストを送信して生成完了を待つWebhookベースの設計を採用している。これはLLMのストリーミングレスポンスとは異なるインテグレーションパターンを要求する。
マルチモーダル入力。テキスト・画像・動画・3Dレイアウトなど、多様な入力形式をサポートする。エンジニアは用途に応じて最適な入力形式を選択できる。例えば、建築分野では2D図面を入力として3Dウォークスルーを生成し、ゲーム開発ではテキストプロンプトから新しいレベルを生成するといった使い分けが可能だ。
エクスポートと相互運用性。生成された3D環境はダウンロード可能であり、既存の3Dパイプライン(Unity、Unreal Engine、Blenderなど)への統合が想定されている。World Modelの出力をスタンドアロンで使うのではなく、既存ワークフローの一部として組み込むことを前提とした設計である。
Runway GWM-1も同様にSDKベースのアクセスを提供しており、特にGWM-Robotics SDKはロボットポリシーの評価パイプラインへの統合を容易にする。NVIDIA CosmosはオープンモデルライセンスでのPublic Accessを提供し、カスタマイズと微調整を可能にしている。こうした「プラットフォームとしてのWorld Model」という設計思想は、LLMがAPIエコノミーを形成したのと同様のエコシステム形成を予感させる。
FAQ
World ModelとLLMの違いは何か?
LLMはテキストの次のトークンを予測する言語モデルであるのに対し、World Modelは3D空間の次の状態を予測する環境シミュレータである。物理法則・幾何構造・因果関係を直接学習し、物理世界のシミュレーションが可能になる点が根本的に異なる。
Large World Modelsは具体的にどのような用途に使えるのか?
主な応用領域はロボティクス(シミュレーションベースの学習)、自動運転(ロングテールシナリオの生成)、デジタルツイン(物理空間の仮想レプリカ)、ゲーム開発(3D環境の自動生成)である。World Labsの「World API」により、エンジニアが自社プロダクトに統合することも可能になった。
空間知能(Spatial Intelligence)とは何か?
Fei-Fei Liが提唱する概念で、物理的・仮想的な世界を理解し、ナビゲートし、相互作用する能力を指す。言語知能の対となる概念であり、ロボットが人間社会で機能するために不可欠な能力とされる。World Labsのプロダクトはこの空間知能の実装を目指している。
World Modelsの市場はどの程度の規模になるのか?
ゲーム分野のWorld Models市場だけで2030年に2,760億ドルに達するとの予測がある(PitchBook調べ)。World Labsは2024年9月の10億ドル評価から2026年1月に50億ドル評価へと急騰しており、投資家の期待の高さを示している。
参考文献
- World Labs Launches Marble, Its First Commercial Product — TechCrunch, 2025年11月
- Announcing the World API — World Labs, 2026年1月
- Genie 3: A New Frontier for World Models — Google DeepMind, 2025年
- Introducing Runway GWM-1 — Runway, 2025年12月
- NVIDIA Launches Cosmos World Foundation Model Platform — NVIDIA Newsroom, 2025年1月
- From Words to Worlds: Spatial Intelligence — Fei-Fei Li, Substack
- Yann LeCun Confirms His New World Model Startup — TechCrunch, 2025年12月
- World Models Could Unlock the Next Revolution in AI — Scientific American



