RDT2:UMIデータのスケーリング限界の探索を通じたゼロショット・クロスエンボディメント汎化の実現に関する包括的調査報告書
ロボット工学の領域において、特定のタスクに特化した制御アルゴリズムから、多様な環境やハードウェアに適合可能な汎用財団モデル(Foundation
Models)への転換は、人工知能研究の最前線における最も重要な課題の一つとなっている。この進化の核心にあるのが、視覚・言語・行動を統合的に処理するVision-Language-Action(VLA)モデルであり、その中でもRDT2(Robotic
Diffusion Transformer
2)は、データのスケーリングとアーキテクチャの革新を通じて、これまでの限界を打破しようとしている。従来のVLAモデルが直面していた最大の障壁は、データの希少性、モデル構造の非効率性、そして異なるロボット筐体間での汎化能力の欠如であった。RDT2は、70億パラメータを持つ大規模な視覚言語モデル(VLM)を基盤とし、1万時間を超える膨大な人間による操作デモンストレーションデータを活用することで、未知のロボットプラットフォームへのゼロショット展開を可能にする画期的な成果を提示している^1
VLAモデルの現状とRDT2の登場背景
ロボット学習の分野におけるパラダイムシフトは、インターネット規模のデータで事前学習されたVLMの成功を、いかにして物理的な世界の操作(マニピュレーション)に転移させるかという点に集約される。これまでのロボティクス・モデルは、特定のロボットアームや限定的なタスク環境に過度に依存しており、環境の変化やハードウェアの変更に対して極めて脆弱であった。Open
X-Embodiment(OXE)のような大規模なマルチエンボディメント・データセットの構築が進められてきたものの、収集されるデータの多様性や品質、そして行動表現の標準化において依然として課題が残されていた^3
RDT2は、これらの課題を解決するために、ハードウェアに依存しない汎用操作インターフェースであるUMI(Universal
Manipulation
Interface)を強化し、これまでにない規模でのデータ収集を敢行した。このアプローチの独自性は、単にモデルのパラメータ数を増やすだけでなく、物理的なインタラクションの「
manifold(多様体)」を捉えるためのデータの質と量を同時に追求した点にある。RDT2の開発チームは、100以上の異なる屋内シーンにおいて、1,000種類以上の物体を含む操作データを収集し、それらを統一されたアクション空間へとマッピングすることで、ロボット知能における「相転移」を引き起こすことに成功した^5
ロボット学習におけるデータの重要性と収集手法の変革
ロボットが汎用的な知能を獲得するためには、視覚情報とそれに対応する精密な行動ラベルが不可欠である。しかし、ロボットによる自己収集データは時間がかかり、コストも高い。一方で、人間によるテレオペレーション(遠隔操作)も、特殊な装置と熟練した操作者を必要とするため、スケーリングが困難であった。RDT2が採用したUMIベースのデータ収集手法は、これらの制約を根本から覆すものである^6
UMIは、ウェアラブルなデバイスを用いて人間が日常的な環境で操作を行うだけで、ロボットが学習可能な形式でデータを記録することを可能にする。この手法により、従来のテレオペレーションと比較して10倍のコスト効率と5倍の収集スピードが実現された。収集された1万時間以上のデータは、液体や熱を扱うタスク、あるいは高度な五指の器用さを必要とするものを除き、家庭内で想定されるグリッパー操作の大部分を網羅している^6
収集手法 コスト効率 収集速度 環境の多様性 行動の精度
従来のテレオペレーション 基準 (1.0) 1x 限定的 高い
(研究室中心)
UMI(RDT2強化版) 0.1x 5x 極めて高い 非常に高い ^6^
(一般家庭等)
シミュレーション 低い 極めて速い モデル化に依存 現実との乖離あり
(Sim-to-Real) ^8^
このようなデータのスケーリングは、モデルが単なる模倣を超えて、物理法則やタスクの本質を理解するための基盤を提供する。RDT2は、この膨大なデータを処理するために、Qwen2.5-VL-7B-Instructをバックボーンとして採用し、視覚的な意味理解と動的な行動生成を高いレベルで融合させている^5
RDT2の核心的アーキテクチャと三段階の学習レシピ
RDT2の卓越した性能は、その独自な学習プロセスとモデル構造に起因している。モデルは、離散的な言語知識と連続的な制御信号を整合させるために、三段階の学習レシピ(Three-Stage
Training
Recipe)を採用している。これは、モデルが高度な推論能力を維持しつつ、物理的なリアクティブ動作をリアルタイムで実行できるようにするための戦略的な設計である^1
第一段階:離散化トークンによる視覚言語・行動の整合
最初の段階では、連続的なロボットの行動(アクション・チャンク)を離散的なトークンへと変換するResidual
Vector
Quantization(RVQ)を用いた事前学習が行われる。ロボットの行動は通常、多次元の連続値として表現されるが、これを言語と同様のトークン列として扱うことで、大規模言語モデル(LLM)の強力な系列予測能力を直接利用することが可能になる^5
具体的には、0.8秒間(30Hz)のアクション・チャンクが、1D temporal
CNNを通じて潜在変数に変換され、複数のコードブックを用いて段階的に量子化される。RDT2では、並進動作、回転動作、およびグリッパーの開閉状態を個別に離散化することで、学習目標間の競合を回避し、精緻な制御を実現している。このプロセスにより、アクション・チャンクは27個の固定長トークンへと圧縮され、VLMのバックボーンはこのトークンを自己回帰的に予測するように訓練される^5
第二段階:フロー・マッチングによる連続アクション・エキスパート
第二段階では、第一段階で構築されたVLAバックボーンの視覚・言語特徴を活用し、より高精度で滑らかな動作を生成するための「アクション・エキスパート」モデル(RDT2-FM)が導入される。ここでは、第一段階のバックボーンを固定(フリーズ)した状態で、4億パラメータを持つ拡散ベースのモデルが訓練される^5
RDT2-FMは、従来の拡散モデル(Diffusion
Policy)よりも効率的とされるフロー・マッチング(Flow-Matching)目的関数を採用している。フロー・マッチングは、ノイズからデータへの「流れ」を直接学習する手法であり、推論時の計算コストを抑えつつ、多峰性の行動分布(複数の正しい動作の選択肢がある状況)を安定して学習できる。学習には以下のフロー・マッチング損失関数が用いられる^5
{width=“5.822916666666667in”
height=“0.5833333333333334in”}
ここで、
{width=“0.1588538932633421in”
height=“0.25416666666666665in”}はデノイジング・ネットワーク、
{width=“0.1764326334208224in”
height=“0.24908136482939633in”}は正解の速度ベクトルを示す。この段階を経ることで、モデルは微細な位置調整や滑らかな軌道生成が可能となり、プロフェッショナルな操作レベルへと到達する。
第三段階:リアルタイム推論のための単一ステップ蒸留
動的なタスク(例えば卓球のラリーや素早い物体への反応)において、複数ステップのノイズ除去を必要とする生成プロセスは致命的な遅延(レイテンシ)をもたらす可能性がある。これを解決するために、第三段階では「RDT2-UltraFast」と呼ばれるモデルの構築が行われる。これは、第二段階で学習されたアクション・エキスパート(教師モデル)を、単一のフォワードパスで動作を出力する学生ジェネレータへと蒸留するプロセスである^5
このオンライン蒸留プロセスにより、推論速度は飛躍的に向上し、カメラのレイテンシを含めても約100ミリ秒という、人間の反応速度に匹敵するパフォーマンスを実現した。これにより、従来のモデルでは困難であった高速な物体の追跡や、リアルタイムでの軌道修正が可能となったのである^6
物理的インタラクションの標準化とクロスエンボダイメント汎化
RDT2の最も特筆すべき成果は、学習に使用していない全く新しいロボット(Unseen
Embodiment)に対しても、追加の学習なしで即座に展開できる「ゼロショット汎化」である。これを実現しているのが、統一されたアクション表現と、UMIによるエンボダイメント(筐体)に依存しないデータ収集プロセスである^1
統一されたアクション空間の設計
異なるロボットアーム(例えばUR5eとFranka Research
3)は、それぞれの関節構成やリンク長、制御方法が異なる。RDT2は、関節空間ではなく、エンドエフェクタ(EEF)の空間における相対的な変位(デルタ・アクション)と回転ベクトルを用いることで、この差異を吸収している。すべての操作データは、以下の7次元ベクトルのペアとして標準化されている^10
{width=“5.822916666666667in”
height=“0.5833333333333334in”}
ここで、$\mathbf{r}$は軸角度表現による3次元の回転ベクトルであり、オイラー角やクォータニオンと比較して学習の安定性が高いことが示されている。また、単腕ロボットと双腕ロボットの両方を扱うために、単腕のデータに対しては未使用のチャネルをゼロでパディングする「pad-to-dual-arm」戦略を採用しており、単一のモデルで多様な形態のロボットを制御することを可能にしている^10
4U汎化フレームワークの検証
RDT2は、以下の4つの「未知(Unseen)」の条件下での汎化能力を体系的に実証している。これは「4U」条件と呼ばれ、汎用ロボット財団モデルの到達点を示す指標となっている^5
-
Unseen Embodiment(未知の筐体):
訓練に含まれないロボットアーム上での動作。 -
Unseen Scene(未知のシーン):
訓練にない照明条件、背景、机の高さなど。 -
Unseen Object(未知の物体):
これまで扱ったことのない形状や色の物体。 -
Unseen Instruction(未知の指示):
語彙や表現が異なる自然言語による命令。
実験の結果、RDT2はこれらの条件が組み合わさった極めて困難な状況下でも、ピック・アンド・プレース、拭き掃除、シェイク、ボタン押しなどのタスクを成功させている^5
タスクの難易度 RDT2-UltraFast 比較対象 備考
成功率 (π0.5等)
布の折り畳み 77% 29-36% RDT2の圧倒的な優位性 ^5^
(未知の物体)
卓球 (高速反応) 88% (打球成功率) - 100msの低レイテンシが寄与
^6^
ボタン押し +97ms (対人間) +323ms (対人間) 人間に近い反応速度を実現
(反応速度) ^5^
スケーリング則と知能の相転移
RDT2の研究成果の中で最も科学的に興味深いのは、データの量およびモデルのサイズと、パフォーマンスとの間に明確な相関関係が存在することを明らかにした点である。大規模言語モデルで見られたスケーリング則(Scaling
Laws)が、ロボットの物理操作の領域でも適用可能であることを示唆している^5
研究チームは、モデルの損失
{width=“0.13736986001749782in”
height=“0.2536056430446194in”} がパラメータ数
{width=“0.18391841644794402in”
height=“0.24522528433945756in”} と消費されたトークン数
{width=“0.17252624671916011in”
height=“0.24356627296587927in”} の関数として記述できることを示した。
{width=“5.822916666666667in”
height=“0.5833333333333334in”}
この数式に基づくと、一定の閾値を超えた時点で、モデルの振る舞いが特定のタスクに限定された「スペシャリスト」から、広範な状況に対応できる「ジェネラリスト」へと変化する「相転移点(Phase
Transition
Point)」が存在する。RDT2は1万時間のデータを用いることで、この相転移点を突破し、日常的なオープンエンドの指示を物理的な行動にマッピングする能力を確立したのである^5
データの質と量のバランス
スケーリングは単なる量の増大を意味するのではない。RDT2では、1,000種類以上のユニークな物体を扱うことで、視覚的な概念の頑健性を高めている。また、人間によるアノテーションと機械による自動アノテーションを組み合わせた二段階のパイプラインを用いることで、言語的なカバレッジを拡大している^5
競合モデルとの比較分析
RDT2の立ち位置をより明確にするために、同時期に発表された主要なVLAモデルとの比較を行う。各モデルは、データの扱い方やアクションの表現において異なるアプローチを提案している。
ABot-M0:アクション多様体学習
ABot-M0は、RDT2と同様に大規模な事前学習を目指しているが、その核心は「アクション多様体仮説(Action
Manifold
Hypothesis)」に基づいている。これは、ロボットの有効な動作は高次元空間全体ではなく、物理法則やタスク制約に縛られた低次元の滑らかな多様体上に存在するという考え方である^10^。ABot-M0は、9,500時間の統合データセット(UniACT)を用い、2段階の学習パラダイムを通じて、空間認識能力の高いアクション・プライアを構築している。RDT2がRVQによる離散化とフロー・マッチングを組み合わせるのに対し、ABot-M0は3D情報の注入とモジュール式の知覚機構を重視している点が異なる^10
SPEAR-1:3D推論の強化
SPEAR-1は、VLMが本質的に2D画像データに基づいているため、3D空間における物体の定位や距離感の把握に限界があるという課題に焦点を当てている^11^。彼らは、200k枚の非ロボット系3D認識用画像を用いて事前学習されたSPEAR-VLMをバックボーンとして活用することで、少ないロボット・デモンストレーション(従来の20分の1)で高いパフォーマンスを実現したと主張している。RDT2がデータの物量によって3D的な理解を暗黙的に学習するアプローチをとるのに対し、SPEAR-1は構造的な3D認識能力を明示的に付与することを目指している^11
LAP-3B:言語によるアクション表現
Language-Action
Pre-training(LAP)は、ロボットのアクションを直接自然言語(例:「左へ5cm移動する」)で表現するという極めてシンプルなレシピを提案している。これにより、VLMの本来の入出力分布とアクション学習を完全に一致させることができ、特別なトークナイザーなしで強力なゼロショット転移を実現している^3
特徴 RDT2 ABot-M0 SPEAR-1 LAP-3B
パラメータ数 7B (バックボーン) VLMベース VLMベース 3B ^3^
データ量 10,000+ 時間 ^1^ 9,500 時間 ^10^ ~2M 軌道 -
アクション表現 RVQトークン & アクション多様体 ^10^ 3D定位ベース 自然言語 ^3^
フロー・マッチング
反応速度 100ms (蒸留後) - - -
汎化能力 4U (ゼロショット) マルチエンボディメント 3D空間理解重視 クロスエンボディメント
^3^
技術的実装とハードウェア要件
RDT2を実際の環境で運用、あるいは独自のデータでファインチューニングするためには、相応の計算資源が必要となる。これは、モデルが大規模なバックボーンに基づいているためである^9
推論および学習のハードウェア要件
RDT2-VQ(離散トークン版)とRDT2-FM(連続アクション版)では、メモリ使用量や計算負荷が異なる。特に、高精度な推論や学習を行うためには、NVIDIA
A100やH100クラスのGPUが推奨される^9
-
推論(Inference): 32GB以上のシステムRAMと、RTX
4090等の16GB程度のVRAMが必要。 -
ファインチューニング(RDT2-FM):
16GB程度のVRAMで可能(アクション・エキスパート部分のみの更新)。 -
フル・ファインチューニング(RDT2-VQ):
VLM全体を更新する場合、80GB以上のVRAM(A100 80GB, H100,
B200等)が不可欠。 -
精度設定:
訓練および推論には主にbfloat16が使用され、数値的な安定性と効率のバランスが図られている^9
データの標準化とパイプライン
ユーザーが自身のデータを用いてRDT2を訓練する場合、データをWebDataset形式のシャードに変換する必要がある。これには、384x768x3の双眼RGB画像、および相対的なアクション・チャンク、対応するアクション・トークンが含まれる^9
現状の課題と今後の展望
RDT2は記念碑的な成果を達成したものの、完全な汎用人工知能(AGI)の物理版としての道程には、依然として克服すべき課題が存在する。
複雑な物理現象のモデル化とシステム同定
RDT2は、視覚と行動の相関を学習することには優れているが、物体の質量、摩擦、弾性といった詳細な物理パラメータを明示的に推論しているわけではない。特に、Atlas、G1、Spotといった異なるダイナミクスを持つロボットへの転移において、システム同定(System
Identification)の自動化は依然として未解決の問題として指摘されている^8
精密操作と動的マニピュレーションの限界
RDT2は卓球のような高速なタスクでも高い成功率を誇るが、それらのタスクはある程度のタイミング誤差や空間誤差を許容する性質を持っている^13^。一方で、糸を通す、複雑な部品を組み立てる、といったミリ単位の精度が要求されるタスクや、接触状態を精密に制御する必要があるタスク(6DoFの精密なマニピュレーション)においては、さらなる知覚と制御の統合が求められる。これには、視覚だけでなく触覚フィードバック(例:TouchGuide)の高度な活用が不可欠である^7
知覚のボトルネックと「信念の慣性」
最新のVLAモデルの評価において、モデルが自律的に情報を収集する際にパフォーマンスが低下する「Active-Passive
Gap」や、新しい証拠が得られても過去の誤った情報を更新できない「Belief
Inertia(信念の慣性)」が観察されている^14^。RDT2のような大規模モデルであっても、環境との能動的なインタラクションを通じて内部の空間表現を動的に更新し続ける能力は、さらなる改善の余地がある。空間的な確信度(Spatial
Belief
Probing)を監視し、探索の非効率性を解消することが、次のステージの課題となる。
結論
RDT2:Exploring the Scaling Limit of UMI Data Towards Zero-Shot
Cross-Embodiment
Generalizationは、ロボット工学におけるスケーリングの威力を決定的に証明した。1万時間を超える高品質なUMIデータと、三段階の精密な学習レシピを組み合わせることで、RDT2は未知のロボット筐体、未知のシーン、未知の物体、そして未知の言語指示という「4U」の壁を突破した^1
この研究が示した最も重要な教訓は、ロボットの知能を向上させるためには、アルゴリズムの洗練だけでなく、人間が物理世界とインタラクトする際の「本質的な構造」をいかに大規模に、かつ低コストでモデルに教え込めるかという点にある。UMIというハードウェアの革新と、フロー・マッチングや蒸留といった最新の生成AI技術の融合は、ロボットが家庭や職場で人間に寄り添い、即座に役立つ存在となる未来を現実のものとしつつある。RDT2は、まさに「体を持った超知能(Embodied
Superintelligence)」への入り口に立つ記念碑的なモデルであり、今後このスケーリングの方向性がさらに加速していくことは疑いようがない^5
引用文献
-
[2602.03310] RDT2: Exploring the Scaling Limit of UMI Data Towards
Zero-Shot Cross-Embodiment Generalization - arXiv, 2月 16,
2026にアクセス、
[https://arxiv.org/abs/2602.03310]{.underline} -
RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot
Cross-Embodiment Generalization - Hugging Face, 2月 16,
2026にアクセス、
[https://huggingface.co/papers/2602.03310]{.underline} -
LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment
Transfer - ResearchGate, 2月 16, 2026にアクセス、
[https://www.researchgate.net/publication/400705241_LAP_Language-Action_Pre-Training_Enables_Zero-shot_Cross-Embodiment_Transfer/fulltext/698d5a0dca66ef6ab992356b/LAP-Language-Action-Pre-Training-Enables-Zero-shot-Cross-Embodiment-Transfer.pdf]{.underline} -
LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment
Transfer - arXiv, 2月 16, 2026にアクセス、
[https://arxiv.org/html/2602.10556v1]{.underline} -
[Literature Review] RDT2: Exploring the Scaling Limit of UMI Data
Towards Zero-Shot Cross-Embodiment Generalization - Moonlight, 2月
16, 2026にアクセス、
[https://www.themoonlight.io/en/review/rdt2-exploring-the-scaling-limit-of-umi-data-towards-zero-shot-cross-embodiment-generalization]{.underline} -
RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by …,
2月 16, 2026にアクセス、
[https://rdt-robotics.github.io/rdt2/]{.underline} -
Universal Manipulation Interface: In-The-Wild Robot Teaching Without
In-The-Wild Robots | Request PDF - ResearchGate, 2月 16,
2026にアクセス、
[https://www.researchgate.net/publication/383888633_Universal_Manipulation_Interface_In-The-Wild_Robot_Teaching_Without_In-The-Wild_Robots]{.underline} -
Fully automated system identification for sim-to-real transfer -
Emergent Mind, 2月 16, 2026にアクセス、
[https://www.emergentmind.com/open-problems/fully-automated-system-identification-sim-to-real]{.underline} -
thu-ml/RDT2: Official code of RDT 2 - GitHub, 2月 16,
2026にアクセス、
[https://github.com/thu-ml/RDT2]{.underline} -
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action
Manifold Learning, 2月 16, 2026にアクセス、
[https://arxiv.org/html/2602.11236v1]{.underline} -
SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding -
arXiv, 2月 16, 2026にアクセス、
[https://arxiv.org/html/2511.17411v1]{.underline} -
SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding -
ResearchGate, 2月 16, 2026にアクセス、
[https://www.researchgate.net/publication/397895530_SPEAR-1_Scaling_Beyond_Robot_Demonstrations_via_3D_Understanding]{.underline} -
ynamicVLA: A Vision-Language-Action Model for Dynamic Object
Manipulation - arXiv, 2月 16, 2026にアクセス、
[https://arxiv.org/html/2601.22153v1]{.underline} -
Li Fei-Fei’s research works | Stanford University and other
places - ResearchGate, 2月 16, 2026にアクセス、
[https://www.researchgate.net/scientific-contributions/Li-Fei-Fei-2151592931]{.underline}