ロボット基盤モデル(Robot Foundation Model, RFM)は、ロボットの学習とデプロイを「タスクごとの個別最適」から「汎化と再利用」を前提とする工程へ押し上げつつある。その中心にあるのが、Vision-Language-Action(VLA)系モデルである。NVIDIAが2025年3月18日に公開したGR00T N1白書は、VLAを前提に、実機データ・人間動画・合成データを混合し、複数エンボディメント(単腕、双腕、人型)に跨る評価系まで提示した点が重要である。

本稿は「NVIDIA Isaac GR00T N1時代」を、特定モデルの追随ではなく、ロボット基盤モデルを評価するための軸として捉える。具体的には、(1)ベンチマーク設計、(2)データ要件、(3)シミュレーションから実機移行(Sim2Real)の評価指標を、現場で使えるチェックリストに落とし込む。

評価の前提: GR00T N1が提示した設計点

GR00T N1はVLAモデルであり、白書では「System 2(視覚と言語の解釈)」と「System 1(拡散トランスフォーマーによる行動生成)」の二層構成として説明される。行動生成側はエンボディメントごとの状態・行動次元差を吸収するため、エンボディメント別のエンコーダ/デコーダで共通表現に射影する設計を採る。さらに推論は少数ステップ(例: K=4)で動作させるとされ、基盤モデル評価においてもレイテンシ、行動の滑らかさ、制御周波数への適合が「精度」と同じくらい重要になる。

また、学習データは「実ロボット軌跡」「人間動画」「シミュレーションやニューラル生成を含む合成データ」の混合であり、合成データについては大規模生成(例: 78万軌跡を約11時間で生成)というスケールの主張がある。つまり評価設計は、モデルだけでなくデータ戦略と生成パイプラインを含めて設計しなければ比較が成立しにくい。

ベンチマーク設計: 何を測ると「基盤性」が見えるか

ロボット基盤モデルの評価は、単一タスクの成功率だけでは不十分である。白書の評価設計は、(a)複数ベンチマーク、(b)複数エンボディメント、(c)言語条件付き、(d)一般化(未見配置・未見物体)を同時に扱う点に特徴がある。白書に明記されたシミュレーション評価は、少なくとも以下の3系統である。

  • RoboCasa Kitchen: 模擬キッチンでの原子的タスク群(例: pick-and-place、ドア開閉、ボタン、蛇口など)。Franka Panda腕、複数カメラRGB観測、既定プロトコル。
  • DexMimicGen Cross-Embodiment Suite: 双腕協調を要する9タスクを、複数の双腕エンボディメント(平行グリッパ、巧緻手、人型GR-1)で評価し、未見オブジェクト配置への一般化も評価する。
  • GR-1 Tabletop Tasks: 実機に近い人型テーブルトップ操作のデジタル相当。未見の受け皿組合せ、ディストラクタを含む言語依存など、Sim2Realに近い条件を入れる。

ここから一般化して、評価軸は次のように整理できる。

  • タスク多様性: 原子的スキル(把持、移動、開閉、押下、注ぐ、受け渡し)をカバーしているか。
  • 条件付けの多様性: 言語指示、視点(マルチカメラ/エゴカメラ)、状態表現の違いで崩れないか。
  • 一般化の設計: 未見物体・未見配置・未見受け皿組合せなど、何を未見にするかが明示されているか。
  • エンボディメント横断性: 単腕→双腕→人型へ、表現や制御の差分を跨いで性能が維持されるか。
  • 再現性: データセット、環境、評価プロトコル(例: 100試行平均、チェックポイント選び等)が公開されているか。

指標は基本的に成功率(success rate)が中心になるが、実装上は「試行回数」「評価のばらつき」「チェックポイント選択のルール」がスコアを左右する。白書はシミュレーションでは100試行平均、実機ではタスクごとに10試行平均、さらに段階的な部分スコア(partial scoring)を用いる旨を記述しており、失敗様式の可視化が重要な評価手法であることを示している。

データ要件: 量よりも「カバレッジ」と「整合性」を測る

ロボット基盤モデルは、データが足りないから弱いのではなく、何が足りないかが曖昧だから評価も曖昧になりがちである。白書では、実機軌跡に加え、人間動画やシミュレーション軌跡を同一の枠組みに取り込む戦略が述べられる。評価設計として重要なのは、次の3点である。

  • 行動ラベルの一貫性: 速度/位置、関節/エンドエフェクタ、バイマニュアルの同期など、ラベルの意味がエンボディメント間で整合しているか。
  • 観測のギャップ: 実機のセンサノイズ、露出、モーションブラー、遮蔽、視点ズレを、学習と評価のどこで扱うか。
  • 言語の役割: 言語が「タスクID」になっていないか。ディストラクタ環境で言語条件が本当に効いているか。

データ量の議論では、合成データ生成が評価を崩す典型パターンがある。合成が増えるほど成功率は上がるが、実機移行で崩れる場合、原因はしばしば「物理・接触・摩擦・コンプライアンス」や「操作対象の材質/変形」など、シミュレーションが弱い箇所に集中する。従って、データ要件の評価指標は、単なる時間数ではなく次である。

  • カバレッジ: 重要な失敗モード(滑り、引っ掛かり、把持失敗、こぼれ、挟み込み、衝突)を再現するサンプルが十分に含まれるか。
  • ドメイン多様性: 照明、背景、カメラ、物体バリエーション、初期状態分布の広さを、定量化しているか。
  • 品質管理: 人手デモでは低品質軌跡の除外やラベリング基準が明示されるか。白書は実機データ収集の時間帯(15分から3時間)とフィルタリングを記述している。
  • サンプル効率: フルデータに対し10%などのサブサンプル学習で性能を維持できるか。白書は低データ設定での比較を行っている。

Sim2Real評価指標: 「移行できた/できない」を分解する

Sim2Realは「性能が落ちた」で終わらせると改善できない。基盤モデル時代のSim2Realは、移行のどこが律速かを切り分ける評価指標が必要である。実務向けには、次の分解が有効である。

  • 知覚移行: カメラ構図の差、露出、反射、遮蔽に対する頑健性。実機ロールアウトのフレーム単位で失敗点を特定できるか。
  • 表現移行: 状態/行動表現の違い(関節空間 vs EE空間、IKの有無)で性能が落ちないか。白書でもエンボディメント別エンコーダ/デコーダや、EEベース行動をオプションで扱う旨が述べられる。
  • 接触移行: 押す/引く/回す/注ぐなど、接触が支配的な操作での差分。摩擦とコンプライアンスの不一致に敏感なタスクを含める。
  • 制御移行: 推論レイテンシ、制御周期、行動の滑らかさ。成功率が同等でも、振動や躊躇が増えると実機では失敗が増える。
  • 安全移行: 人・物・ロボットの損傷リスクを、評価プロトコルに組み込む(速度/力の上限、ジオフェンス、介入回数、緊急停止回数など)。

白書は実機評価で部分スコア(例: 把持は成功したが配置に失敗した場合に0.5など)を使うと述べ、段階的失敗の観測を可能にしている。これは「成功/失敗」をフェーズ別KPIに分解する基本形である。基盤モデル評価では、同じ枠組みで「言語理解フェーズ」「アプローチ」「把持」「搬送」「配置/操作」「リカバリ」の各段階を定義し、失敗様式と再試行挙動(リカバリ能力)を評価に含めるべきである。

実務向けスコアカード: GR00T N1以後に残る評価チェックリスト

GR00T N1自体の優劣は、モデルの世代交代で更新される。一方で、評価軸は資産として残る。最後に、RFMを比較・調達・内製する際に最低限揃えるべきスコアカードを提示する。

  • ベンチマーク構成: 3系統以上(原子的/双腕/人型など)を用意し、未見物体・未見配置を明示する。
  • 成功率の定義: 成功判定、試行回数、時間制約、部分スコアの基準を固定する。
  • データレポート: 実機/人間動画/合成の内訳、初期状態分布、品質フィルタ、ラベル仕様を公開する。
  • サンプル効率: 10%データ等の低資源条件での性能と学習曲線を提示する。
  • Sim2Real分解: 知覚/表現/接触/制御/安全のどこで崩れるかをフェーズ別に可視化する。
  • 運用適合: 推論コスト、レイテンシ、介入頻度、再現性(同一条件での分散)を記録する。

このスコアカードを満たす評価設計ができれば、GR00T N1に限らず、今後のVLA系(拡散、自己回帰、ハイブリッド)を比較する土台になる。RFM時代の競争力は、モデルの名前ではなく、評価とデータの生産性で決まる。

FAQ

「ベンチマーク成功率」だけで調達判断してよいか

不十分である。成功率は必要条件だが、未見条件の定義、試行回数、部分スコアの有無、失敗様式の内訳が揃わないと比較にならない。実機移行や安全性まで含めたスコアカードで判断すべきである。

合成データを増やすと常に良いのか

良いとは限らない。接触・摩擦・コンプライアンスや視覚のノイズなど、シミュレーションが弱い領域では、合成が増えても実機性能が伸びないことがある。合成データの効果は、失敗モード別に検証する必要がある。

Sim2Realの評価は何から始めるべきか

成功/失敗をフェーズに分解し、知覚、表現、接触、制御、安全のどこが律速かを特定することから始める。部分スコアや介入回数の計測は、改善ループを回す上で特に有効である。

「エンボディメント横断性」はどう測るのが現実的か

同じタスク構造(例: pick-and-place、開閉、注ぐ)を、単腕/双腕/人型の複数条件で評価し、状態・行動表現の差分(関節空間/EE空間等)を明示した上で性能が維持されるかを見る。タスクの難易度を揃えないと誤差が大きくなる。

参考文献