Vision-Language-Action(VLA)モデルは、カメラ映像と言語指示から直接ロボットの動作を出力する基盤モデルである。2023年のRT-2を皮切りに、OpenVLA、Octo、π0、Helix など多数のモデルが登場し、ロボティクスの汎用化に向けた競争は激化している。しかし、研究室のデモと現場での実用には深い溝がある。その溝を埋める鍵となるのが「データフライホイール」── 現場で動くロボット自身がデータを収集し、モデルを改善し、さらに良いデータを生むという自己強化ループである。

本記事では、VLAモデルを実環境に投入しデータフライホイールを回すための3本柱 ── ログ収集基盤、失敗からの学習機構、継続学習パイプライン ── の設計指針を解説する。

VLAモデルとは何か ── ビジョン・言語・行動の統合

VLA(Vision-Language-Action)モデルは、視覚エンコーダ、言語モデル、行動デコーダを統合したエンドツーエンドの基盤モデルである。従来のロボット制御が認識・計画・実行を別々のモジュールで処理していたのに対し、VLAはカメラ映像と「テーブルの上のカップを持ち上げて」という自然言語指示を受け取り、ロボットアームの関節角度やグリッパーの開閉といったアクションを直接出力する。

2023年7月にGoogle DeepMindが発表したRT-2は、55Bパラメータの巨大モデルでこのアーキテクチャの有効性を実証した。その後、2024年5月にUC BerkeleyがOcto(27M〜93Mパラメータ、80万軌跡で学習)を、同年6月にスタンフォード大学がOpenVLA(7Bパラメータ、97万デモンストレーション)をそれぞれオープンソースで公開した。OpenVLAはRT-2-Xを16.5%上回る精度を、7分の1のパラメータ数で達成している。

2024年10月にはPhysical Intelligence社がπ0のデモを公開し、洗濯物の折り畳み、段ボール箱の組み立て、倉庫仕分けなど68タスク・7種のロボットで汎用性を示した。同社は同年11月にJeff Bezos率いる投資家から4億ドルを調達し、評価額は20億ドルに達した。2025年2月にはFigure AIがヒューマノイド上半身制御に特化したHelix VLAを、Google DeepMindがGemini 2.0を物理世界に拡張したGemini Roboticsを発表している。

データフライホイールの仕組み ── なぜ「動かしながら学ぶ」が必要か

データフライホイールとは、デプロイされたロボットが業務を遂行する過程でデータを収集し、そのデータでモデルを改善し、改善されたモデルがさらに質の高いデータを生むという好循環のことである。テスラのAutopilotが数十億マイルの走行データで自動運転を改善し続けているのと同じ原理だが、ロボティクスにおいてはその実現がはるかに困難である。

その根本原因は「データの希少性」にある。インターネット上のテキストが100兆トークン以上存在するのに対し、ロボットの行動データは全世界を合わせても数百万軌跡にとどまる。Open X-Embodimentプロジェクトが34研究室・22種のロボットから集めた100万以上の軌跡でさえ、言語モデルの学習データと比べれば微々たるものである。だからこそ、現場に投入したロボットからデータを回収し続ける仕組みが不可欠なのである。

スタンフォード大学のScanfordプロジェクトはこのフライホイールの好例である。図書館に配備されたロボットが書架をスキャンし、図書館カタログと照合することで自動ラベリングを実現した。2,103棚のスキャンにより書籍識別精度は32%から71.8%に向上し、18.7時間分の人手作業を削減した。人手のアノテーションをほぼゼロにしたこの事例は、データフライホイールの威力を端的に示している。

第一の柱 ── ログ収集基盤の設計

データフライホイールの第一の柱は、現場で稼働するロボットから体系的にログを収集する基盤である。収集すべきデータは多岐にわたる。RGBカメラおよび深度カメラの映像、ロボットの関節角度・エンドエフェクタ座標などの固有受容覚データ、力覚・トルクセンサの時系列データ、タスクメタデータ(指示文、環境情報、成否フラグ)、そしてモデル推論時の信頼度スコアである。

ここで最大の技術的課題となるのがデータの異種性である。異なるロボット間でカメラの解像度・視点・フレームレートが異なり、アクション表現も関節角度とエンドエフェクタ座標で統一されていない。Open X-Embodimentプロジェクトは標準化されたトークン化・前処理パイプラインでこの問題に対処し、22種のロボットのデータを統合することで単一ロボットのベースラインを50%上回る性能を実現した。

筆者が衛星画像の建物検知AIを開発した際に得た教訓は、大規模画像データのパイプラインでは「精度だけでなく、処理速度とコストのバランスが実用化の鍵」ということである。VLAのログ収集にも同じ原理が当てはまる。すべてのフレームを最高解像度で保存すれば数テラバイト単位のストレージコストが発生するため、タスクの成否や信頼度スコアに基づく選択的記録が実務上は不可欠である。

具体的なアーキテクチャとしては、以下の3層構造が有効である。第1層のエッジバッファはロボット本体上で直近のエピソードを一時保存する。第2層のイベント駆動アップロードは失敗検出・低信頼度検出時にクラウドへ送信する。第3層の定期バッチ同期は成功エピソードのサンプルを定期的に転送する。この設計により、帯域幅を節約しつつ、改善に最も有用な失敗事例を優先的に収集できる。

第二の柱 ── 失敗学習と自己改善

データフライホイールの第二の柱は、失敗データからの学習と自己改善の機構である。成功デモンストレーションだけでは、モデルはエッジケースへの対処能力を獲得できない。失敗データこそが、モデルの弱点を特定し、リカバリ方策を学習するための最も貴重な教師データとなる。

2024年から2025年にかけて、VLAの自己改善に関する研究が急速に進展した。ICLR 2025で発表された研究では、報酬設計不要の汎用的なオンライン自己改善手法が提案され、LIBEROベンチマークで約70%の成功率を99%に引き上げた。SimplerEnvでも50%の性能向上が報告されている。これらの手法では、VLM(Vision-Language Model)がリアルタイムで失敗状態を検出し、信頼度の低いアクションにフラグを立て、エージェンティックなフレームワークが再計画を行う。

もう一つの重要なアプローチが、シミュレーションと実環境の協調学習(Sim-Real Co-Training)である。2025年に発表されたRLinf-Coフレームワークは、教師あり学習によるウォームアップの後、シミュレーション内で強化学習を行い、実世界データに対する補助損失で破滅的忘却を防ぐという2段階方式を採用している。実環境のみのファインチューニングと比較して大幅な性能向上が報告されている。

LLMを活用したメディア運営の経験から筆者が痛感しているのは、「自動生成の品質管理で最も難しいのは、出力の誤りではなく、何が正しいかの基準を定義すること」という点である。VLAの失敗学習も同様で、ロボットの動作が「失敗」であるかどうかの判定基準 ── 物体を落としたのか、意図的に置いたのか ── を自動化することが、フライホイールのスループットを左右する最大のボトルネックとなる。

第三の柱 ── 継続学習パイプラインの実装

第三の柱は、収集したデータでモデルを安全かつ効率的に更新し続ける継続学習パイプラインである。これは単なるファインチューニングの繰り返しではなく、品質フィルタリング、ドメイン適応、安全性検証、段階的デプロイを組み込んだ体系的なプロセスである。

パイプラインの基本構成は以下のとおりである。まず収集データのフィルタリングを行い、ノイズの除去とラベルの品質検証を実施する。次にドメイン適応として、タスク固有のファインチューニングを行う。この段階でLoRA(Low-Rank Adaptation)やアダプタモジュールによるパラメータ効率的な手法が有効であり、OpenVLAはコンシューマGPUでの微調整で1%未満の精度低下に抑えられることを実証した。続いてシミュレーション環境での安全性検証を行い、ホールドアウトテストセットでの汎化性能を確認した上で、段階的にデプロイ範囲を拡大する。

破滅的忘却(catastrophic forgetting)は継続学習の最大の敵である。新しいタスクの学習が既存タスクの性能を劣化させるこの問題に対し、近年ではMixture-of-Experts アーキテクチャやリプレイ機構による緩和策が研究されている。実用上は、更新前のモデルに対するリグレッションテストを自動化し、性能劣化を検出した場合にロールバックできる仕組みが必須である。

アノテーションのコスト削減も重要な設計ポイントである。全データの約1%にのみ言語トークンでアノテーションを行い、残りは基盤モデルで自動ラベリングする手法が報告されている。これにより人手のアノテーション量を100分の1に圧縮できる。

誰がフライホイールを回すのか ── 主要プレイヤーの戦略

VLAデータフライホイールの実現に向けて、複数の企業・研究機関が異なる戦略で競争している。

Physical Intelligenceは「質重視」のアプローチを採る。π0は7種のロボット・68タスク・1万時間以上のデータで学習され、PaliGemma VLMをベースとしている。2024年11月の4億ドルの資金調達は、データフライホイール経済学の成立を市場が認めた証左といえる。

Figure AIは「量と多様性」で攻める。2024年12月にFigure 02を商用顧客に初出荷し、ロボット自体がデータ収集装置となる戦略を始動した。Brookfieldとの提携で10万戸以上の住宅環境にアクセスし、Helixラボでは大規模データ収集専用の研究施設を稼働させている。2025年2月に発表したHelix VLAはヒューマノイド上半身制御に特化し、指・手・腕・頭部の協調動作を学習する。

1X Technologiesは「家庭内デプロイ」という大胆な路線を進む。二足歩行ヒューマノイドNEOを早期ユーザーの家庭に配備し、実際の生活環境からデータを収集している。2024年にはWorld Model Challengeとして100時間以上のEVEロボットの行動データを研究コミュニティに公開した。

Google DeepMindはオープンサイエンスの推進力となっている。Open X-Embodimentプロジェクトで34研究室からの100万以上の軌跡を統合し、RT-2-Xでは複数ロボットのデータ統合により単一ロボットの3倍の性能を達成した。

Toyota Research Instituteは2024年10月にBoston Dynamicsとの提携を発表し、電動Atlas上でLarge Behavior Models(LBM)を開発する計画である。拡散モデルベースのアプローチで両腕操作タスクのデータ収集を進めている。

あらゆる技術領域を横断してきた経験から言えるのは、このようなプラットフォーム競争では「最も多くのデータを最も速く回せる者」が勝つということである。技術的な優位性は一時的だが、データの蓄積は複利で効いてくる。VLAの競争もまた、モデルアーキテクチャの巧みさよりも、フライホイールの回転速度で決着がつく可能性が高い。

残された課題 ── 分布シフト・安全性・スケーリング則

データフライホイールの実現には、依然として大きな技術的課題が残されている。

分布シフト(Distribution Shift)は最も根本的な問題である。研究室で収集したデモンストレーションと実環境の間には視覚的ドメインギャップ、ロボット形態の違い、タスク分布のミスマッチが存在する。行動クローニングで学習したVLAモデルは複数ステップの軌跡で誤差が蓄積し、学習分布から逸脱していく。複数ロボットの訓練データ統合(Open X-Embodimentの22種)やSim-Real協調学習が緩和策として有効だが、完全な解決には至っていない。

探索時の安全性も深刻な制約である。2025年時点でヒューマノイドロボットの安全基準は十分に整備されておらず、ANSI/A3 R15.06-2025が産業用ロボットの安全ガイドラインを更新したものの、二足歩行ロボットの転倒リスクなどはカバーしきれていない。実務的には、テレオペレーションと自律制御のハイブリッド方式で段階的に自律度を上げるアプローチ、制約付きアクション空間(関節速度制限、力覚上限)、シミュレーション事前検証が安全なデータ収集の三本柱となる。

ロボティクスにおけるスケーリング則は未解明のフロンティアである。言語モデルではパラメータ数・データ量・計算量の関係が比較的よく理解されているが、VLAモデルで1万時間のデータが10万時間、100万時間に増えたときどのような性能曲線を描くかは、まだ誰も答えを持っていない。さらに、家庭用ロボットのデータにおけるプライバシー問題、ドメイン間転移の有効性(家庭ロボットのデータが倉庫ロボットの改善に役立つか)、人間のフィードバックからの報酬関数学習なども、未解決の重要な研究課題である。

FAQ

VLAモデルと従来のロボット制御の違いは何か?

従来型は認識・計画・実行を別モジュールで処理するのに対し、VLAはカメラ映像と言語指示からエンドツーエンドで動作を出力する。これにより言語理解に基づく柔軟なタスク指示が可能になり、未知のタスクへの汎化能力が向上する。

データフライホイールの構築に最低限必要な要素は?

最低限必要なのは(1)実環境で稼働するロボットからのログ収集基盤、(2)成功・失敗を自動判定するラベリング機構、(3)収集データでモデルを安全に更新する継続学習パイプラインの3点である。自動ラベリングの精度がフライホイールの回転速度を決定する。

現時点でVLAモデルの商用利用は始まっているのか?

2024年12月にFigure AIがFigure 02を有料顧客に初出荷し、商用フェーズが始まった。1X TechnologiesもNEOの家庭配備を2024年9月から開始している。ただし大規模量産には至っておらず、2025年時点では限定的なパイロット展開の段階にある。

破滅的忘却を防ぐにはどうすればよいか?

Mixture-of-Experts(MoE)アーキテクチャ、LoRAによるパラメータ効率的ファインチューニング、過去データのリプレイ機構が主な対策である。加えて、更新前モデルへのリグレッションテスト自動化と、性能劣化時のロールバック機構を実装しておくことが実用上は不可欠である。

参考文献