言語アクション・プリトレーニング:ゼロショット・クロスエンボディメント転移を実現するロボット基盤モデルの新パラダイム
ロボット汎用基盤モデルにおけるエンボディメントの壁
人工知能の発展において、視覚・言語・アクション(VLA)を統合したモデルは、多様な環境やタスクに適応可能な「汎用ロボット・エージェント」を実現するための重要なステップとして位置づけられてきた。しかし、既存のVLAモデルには依然として根本的な課題が存在している。それは、学習時に使用された特定のロボット機体(エンボディメント)にモデルの内部表現が強く依存してしまう、いわゆる「エンボディメントへの過学習」である。Open
X-Embodiment(OXE)のような大規模なマルチ・エンボディメント・データセットを用いた事前学習を行っても、従来のモデルは未知のロボット機体に対してゼロショットで動作させる際、多くの場合で成功率が著しく低下、あるいはゼロにまで崩壊するという現象が報告されてきた
^1
この問題の本質は、視覚と言語の広範な意味的理解と、低レベルのモーター制御アクションとの間の表現上の乖離にある。従来のVLAモデルでは、アクションを抽象的な離散トークンや連続的なベクトル、あるいは学習された独自のトークナイザーによって表現することが一般的であった
^2^。これらの表現は、視覚言語モデル(VLM)が事前学習によって獲得した自然言語の分布とは大きく異なるため、ロボットのアクションを学習する過程で、VLMが持つ強力な汎用表現が特定のハードウェア特有の制御パラメータによって上書きされてしまう。その結果、少しでもグリッパーの形状が異なったり、カメラの取り付け位置が変わったりするだけで、モデルは適切な動作を選択できなくなる
^2
本報告書で詳述する「言語アクション・プリトレーニング(Language-Action
Pre-training:
LAP)」は、この課題に対する極めてシンプルかつ強力な解決策を提示するものである。LAPの核となるアイデアは、低レベルのロボットアクションを直接自然言語(言語アクション)として表現し、アクションの教師あり学習をVLM本来の入出力分布に整合させることにある
^1^。この手法により、追加のトークナイザーやコストのかかるアノテーションを必要とせず、未知のエンボディメントに対しても高い汎用性を持つLAP-3Bモデルが構築された。LAP-3Bは、既存の最高性能のVLAと比較して、未知のロボットに対するゼロショット成功率を約2倍に向上させ、50%以上の平均成功率を達成した最初のモデルである
^1
言語アクション・プリトレーニング(LAP)の理論的枠組み
LAPが提案する「言語アクション」とは、ロボットのエンドエフェクタのアクション(例えば、デルタ動作やグリッパーの状態)を、構造化された自然言語のテキストとして記述したものである。具体的には、「左に5cm移動する」「前方に45度傾ける」といった動作の正味の効果を、VLMが解釈可能な形式で表現する
^2
この表現手法の最大の利点は、VLMがWebスケールのテキストデータから学習した空間的・意味的な知識を、ロボット制御に直接活用できる点にある。従来の数値ベースのアクション表現は、それ自体に意味構造を持たないため、各エンボディメント間の関係性をモデルが理解する助けにはならなかった。対照的に、言語アクションは「移動」「回転」「把持」といった意味的な概念を通じて、異なる機体間での共通動作を記述するためのユニバーサルなインターフェースとして機能する
^2
言語アクションの生成プロセスは決定論的なアルゴリズムに基づいており、生の動作データから固定のテンプレートと座標変換ルールを用いて変換される。これにより、モデルは特定のハードウェアの設計に依存することなく、環境に対する「意図された物理的変化」を記述するように訓練される。このアプローチは、ロボット工学における長年の課題であった、運動学的異質性(Kinematic
Heterogeneity)の克服に向けた重要な一歩となる ^2
既存のVLAモデルにおけるアクション表現の比較
以下の表は、LAPと既存の主要なVLAモデルにおけるアクション表現手法、およびその特性を比較したものである。
モデル・手法 アクション表現形式 特徴と利点 クロスエンボディメント汎用性
LAP-3B (LAP) 言語アクション(自然言語テキスト) ^2^ VLMの事前学習分布と一致、意味的構造を持つ ^4^。 極めて高い(ゼロショット可能)
^1
Pi-0.5 (FASTトークン) 学習済みトークナイザーによる離散トークン 効率的な圧縮が可能だが、言語との直接的な繋がりはない ^3^。 中程度(ファインチューニングを推奨)
^3^ ^5
VLA-0 (数字トークン) アクション値を数字トークンとして表現 ^3^ シンプルだが、意味的構造が欠如しておりエンボディメントに固執しやすい 低い(未知の機体で崩壊) ^2^。
^4
MOTIF ベクトル量子化された時空間パターン ^8^ エンボディメントに依存しないパターンを抽出する設計 ^8^。 中程度(数ショットでの転移を想定)
(アクション・モチーフ) ^8^。
LAP-3Bのアーキテクチャ設計と学習プロトコル
LAPを実用的なロボット制御システムとして具現化したのがLAP-3Bである。このモデルは、高度な意味的推論能力を持つVLMバックボーンと、高頻度のリアルタイム制御を担う軽量なアクション・エキスパートを組み合わせた、ハイブリッドなMixture-of-Transformersアーキテクチャを採用している
^2
VLMバックボーンとアクション・エキスパートの統合
LAP-3Bのバックボーンには、30億パラメータ規模のPaliGemma-3Bが使用されている。このバックボーンは、画像とテキストのペアを用いた大規模な事前学習により、優れた視覚的理解能力と推論能力を備えている
^4^。LAPの学習過程において、このバックボーンは言語アクションのトークンを自己回帰的に予測するように最適化される。これにより、モデルは視覚情報に基づいて「次にロボットが言語的にどのような動作を行うべきか」を内省的に記述する能力を獲得する
^4
一方で、物理ロボットの制御には通常25Hz以上の高頻度な指令が求められる。VLMによる言語トークンの生成は計算コストが高く、リアルタイム制御には不向きであるため、LAP-3Bは拡散モデルベースのアクション・エキスパートを搭載している
^2^。このアクション・エキスパートは、VLMバックボーンから抽出された潜在的な意味表現を受け取り、連続的な生の動作ベクトルを出力する役割を果たす
^4
知識絶縁と学習の安定化
アーキテクチャ設計における決定的な工夫の一つが「知識絶縁(Knowledge
Insulation)」である。LAP-3Bの学習では、アクション・エキスパートからの勾配がVLMバックボーンに逆伝播しないようにブロックされている
^4^。これは、低レベルの制御学習プロセスが、VLMが持つ広範な汎用表現を破壊してしまう「表現の崩壊」を防ぐためである
^3
全体の学習目的関数は、以下の数式に示すように、言語アクションのクロスエントロピー誤差とアクション・エキスパートの拡散損失の加重和として定義される
^4
{width=“6.458333333333333in”
height=“0.4181113298337708in”}
ここで、
{width=“0.41780621172353455in”
height=“0.2506835083114611in”}
は、言語アクション学習と制御学習の収束速度のバランスを調整するためのハイパーパラメータである。この目的関数により、モデルは物理的な動作精度と、その動作を意味的に記述する能力の両方を同時に高めることが可能となる
^4
未知のエンボディメントに対するゼロショット性能の検証
LAP-3Bの最大の成果は、学習中に一度も見ることのなかったロボット機体(Held-out
Embodiments)に対して、追加の学習なしで即座にタスクを実行できる能力を示したことにある
^1^。評価は、Custom Franka、YAM(Yet Another
Manipulator)、Kinovaといった、物理的特性や運動学的構造が異なる複数のロボットプラットフォームで行われた。
ゼロショット評価における成功率の分析
実験結果は驚異的なものであった。従来のVLAモデル(X-VLAやDROID専用モデルなど)が、未知のハードウェア上では動作が不安定になり、成功率がほぼ0%にまで低下するのに対し、LAP-3Bは50%を超える平均成功率を維持した
^4^。特に、グリッパーの形状が一般的なFrankaとは大きく異なるYAMロボットにおいても、「ティッシュを引き出す」といった繊細な空間推論が必要なタスクを成功させている
^7
ロボット機体 タスク内容 LAP-3B Pi-0.5 VLA-0
成功率 (Replicated) (Replicated)
Custom Franka 物体の仕分け 60% ^7^ 25% ^7^ 5% ^7^
YAM Robot ティッシュの操作 55% ^7^ 15% ^7^ 0% ^7^
Kinova Arm ピック・アンド・プレース 48% ^4^ 10% ^7^ 0% ^7^
この結果から導き出される第2順位の洞察は、ゼロショット転移の成功には、単なるアクション空間の統一(例:すべてのロボットのアクションをエンドエフェクタ空間で記述する)だけでは不十分であるという点である
^2^。既存のVLAもアクション空間自体は統一されていたが、それでも転移に失敗していた。LAPが成功したのは、アクションを「言語」という抽象度の高いレイヤーで橋渡ししたことにより、視覚的な入力と物理的な出力の間の対応関係を、モデルが人間のように意味的に理解できるようになったからであると推察される
^2
下流タスクへの適応効率とファインチューニングの動態
ゼロショットでの動作が困難な、より複雑で器用さが求められるタスクにおいても、LAP-3Bは優れた適応能力を発揮する。言語アクション・プリトレーニングによって得られた内部表現は、新しいエンボディメントへのファインチューニングにおいて、非常に高品質な初期値として機能するためである
^6
シミュレーションおよび実機での学習効率
LIBEROシミュレーションベンチマークを用いた比較実験では、LAP-3Bはわずか1エポックの学習で78%の成功率に達し、6エポック以内には最大性能(96.8%)を達成した
^6^。これは、既存のどのベースラインモデルよりも大幅に速い収束速度である。また、実機を用いた器用な操作タスク(例:テープをラックに掛ける、タオルを畳んでバスケットに入れる)においては、従来のベースラインが同等の性能に達するまでに必要としたデータ量の約2.5倍少ないデモンストレーション数で、目標とする成功率に到達した
^6
この適応効率の高さは、モデルの内部で学習された表現が「エンボディメントに依存しない共通的な物理法則や操作概念」を捉えていることを示唆している。新しく提示されたわずかなデータから、モデルはその特定のロボットの運動特性を素早く言語アクションの体系にマッピングできるため、学習の初期段階から高い精度での制御が可能になるのである
^3
LIBEROベンチマークにおけるファインチューニング性能
学習モデル 1エポック後の成功率 6エポック後の成功率 収束までの効率向上
LAP-3B 78.0% ^6^ 96.8% ^6^ 2.5倍効率的 ^6^
Pi-0.5 45.0% ^6^ 72.0% ^6^ 基準 (1.0x)
(Replicated)
Pi-0.5 62.0% ^6^ 90.0% ^6^ 1.8倍
(Oracle)
スケーリング則と視覚言語タスクとのシナジー
LAPのもう一つの顕著な特性は、モデルのパラメータ規模を拡大した際の性能向上が非常に安定している点にある。一般に、特定の数値表現を用いたロボットモデルでは、規模を大きくしても必ずしも性能が向上せず、時には過学習によって性能が飽和・低下することがある
^4^。しかし、LAP-3Bにおいては、モデルを40億から270億パラメータへとスケールアップさせるに従い、トークンの予測損失とアクションの検証損失の両方が一貫して減少することが確認された
^4
これは、LLMやVLMの性能が規模に対してべき乗則に従って向上するという知見が、ロボット制御の領域においても言語アクションという形式を通じて適用可能になったことを意味している。大規模な言語モデルは、より複雑で微妙な空間関係や動作指示を記述する能力に長けているため、それが直接的にロボットの制御精度の向上に寄与する
^2
さらに、言語アクションは自然言語の空間を共有しているため、Visual
Question Answering (VQA) や動作予測(Motion
Prediction)といった既存のマルチモーダル・タスクとの同時学習(Co-training)が極めて容易である。例えば、ロボットの動作前後の画像から「ロボットがどのように動いたか」を言語アクション形式で説明させるタスクを追加することで、モデルは自身の行動の意味的な視覚的結果をより深く学習できる
^4^。このようなシナジーは、従来の非言語的なアクション表現では実現困難であった、高度な空間的推論能力をロボットに提供する
^4
内部表現の可視化:エンボディメント・アグノスティックな空間
LAP-3Bがなぜこれほどまでに高い汎用性を持つのかを解明するため、研究チームはt-SNEを用いた潜在表現の可視化を行った。その結果、LAP-3Bの潜在空間においては、学習に使用されたエンボディメントのデータと、一度も見ることのなかった未知のエンボディメントのデータが、大きなオーバーラップを持って分布していることが明らかになった
^4
これに対し、抽象的なトークンで学習されたベースラインモデルでは、各ロボット機体ごとに特徴量が明確にクラスター化(分離)されており、未知の機体は学習分布の完全に外側に位置していた
^2^。この視覚的証拠は、LAP-3Bが「エンボディメントに依存しない(Embodiment-agnostic)制御表現」を獲得していることを明確に裏付けている。モデルは特定のモーターの仕様ではなく、環境の中で物体を「動かす」というタスクの本質を、言語という共通言語を通じて理解しているのである
^2
また、学習過程全体を通じて、未知のエンボディメントに対するアクション予測誤差を追跡したところ、LAP-3Bはベースラインと比較して常に一貫して低い誤差を維持していた
^7^。これは、言語アクションによる監督信号が、未知の状況に対しても外挿可能な安定した勾配を提供していることを示唆している
^7
ロボティクスにおける実用的課題と今後の展望
LAP-3Bが示したゼロショット転移の成功は、将来的なロボットフリートの運用形態に革命をもたらす可能性がある。新しいロボットを導入する際、高コストな実機データの収集や長時間の微調整を待つことなく、すぐに基本的なタスクを任せられるようになるからである
^1^。これにより、多種多様なロボットを混在させて運用する物流拠点や家庭内アシスタントの開発スピードは飛躍的に向上するだろう
^2
しかし、現在のLAPアプローチにもいくつかの制約と改善の余地が残されている。第一に、現在の言語アクション生成は主にエンドエフェクタのデリバリー動作に焦点を当てており、多指ハンドのような非常に複雑な運動学を持つシステムの全身制御を記述するには、さらに洗練されたテンプレートや言語体系が必要になる可能性がある
^2^。また、動的な物体との接触や高速な反応が求められるタスクにおいては、言語という比較的抽象度の高いインターフェースが情報伝達のボトルネックになるリスクも否定できない
^2
さらに、最近の研究では、視覚情報だけでなく固有受容感覚(Proprioception)の重要性も再認識されているが、固有受容感覚と視覚情報をいかに最適なバランスで統合するかという課題は依然として残っている。モデルが特定の感覚(特に学習損失の低減が速い固有受容感覚)に過度に依存し、視覚的な意味理解を軽視してしまう現象を回避するための、GAPアルゴリズムのような勾配調整手法との組み合わせも今後の研究課題となるだろう
^10
将来の研究開発の方向性
領域 今後の課題とアプローチ 期待される効果
表現の深化 触覚や力覚データの言語化と統合 ^10^。 接触を伴う高精度な組み立てタスクの実現
^11
長期計画 LLMベースのプランナーと言語アクションの連携 ^3^。 複雑な複数ステップにわたるタスクの自律実行
^3
データのスケーリング 人間のデモンストレーションビデオからの言語アクション抽出 ロボット実機データに頼らない学習の加速 ^9^。
^4
多様な形態への拡張 ヒューマノイドや多足歩行ロボットへの適用 ^8^。 腕部操作以外の広範な移動・行動汎用性の獲得
^8^。
結論
言語アクション・プリトレーニング(LAP)は、ロボットの運動制御と視覚言語の意味理解を「言語」という単一の共通表現によって統合することで、クロスエンボディメント汎用性の新しい基準を確立した。LAP-3Bモデルの成功は、これまでのロボット学習における最大の障壁の一つであった「ハードウェアへの固執」が、適切な表現学習によって打破可能であることを実証している
^1
特筆すべきは、LAPが追加の特殊なアーキテクチャやコストのかかるアノテーションを一切必要とせず、既存のVLMの可能性を最大限に引き出す極めてシンプルなレシピであるという点である
^1
LAP-3Bが達成した50%以上のゼロショット成功率は、ロボットが工場や研究所といった制御された環境を飛び出し、多種多様なハードウェアが混在する日常生活の空間へとシームレスに普及していくための決定的なマイルストーンとなる。自然言語をアクションのブリッジとして活用するこのパラダイムシフトは、真の意味での「汎用ロボット基盤モデル」の実現に向けた、最も有力な道筋の一つであると結論付けられる
^2
引用文献
-
[2602.10556] LAP: Language-Action Pre-Training Enables Zero-shot
Cross-Embodiment Transfer - arXiv.org, 2月 24, 2026にアクセス、
[https://www.arxiv.org/abs/2602.10556]{.underline} -
LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment
Transfer - ResearchGate, 2月 24, 2026にアクセス、
[https://www.researchgate.net/publication/400705241_LAP_Language-Action_Pre-Training_Enables_Zero-shot_Cross-Embodiment_Transfer/fulltext/698d5a0dca66ef6ab992356b/LAP-Language-Action-Pre-Training-Enables-Zero-shot-Cross-Embodiment-Transfer.pdf]{.underline} -
FAST: Efficient Action Tokenization for Vision-Language-Action
Models - ResearchGate, 2月 24, 2026にアクセス、
[https://www.researchgate.net/publication/395364524_FAST_Efficient_Action_Tokenization_for_Vision-Language-Action_Models]{.underline} -
[Revisión de artículo] LAP: Language-Action Pre-Training Enables
Zero-shot Cross-Embodiment Transfer, 2月 24, 2026にアクセス、
[https://www.themoonlight.io/es/review/lap-language-action-pre-training-enables-zero-shot-cross-embodiment-transfer]{.underline} -
LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment
Transfer - arXiv, 2月 24, 2026にアクセス、
[https://arxiv.org/html/2602.10556v1]{.underline} -
LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment
Transfer - arXiv, 2月 24, 2026にアクセス、
[https://arxiv.org/html/2602.10556v2]{.underline} -
LAP: Language-Action Pre-training Enables Zero-Shot Cross-Embodiment
Transfer, 2月 24, 2026にアクセス、
[https://lap-vla.github.io/]{.underline} -
Learning Action Motifs for Few-shot Cross-Embodiment Transfer -
ResearchGate, 2月 24, 2026にアクセス、
[https://www.researchgate.net/publication/400854786_MOTIF_Learning_Action_Motifs_for_Few-shot_Cross-Embodiment_Transfer]{.underline} -
Motion Tracks: A Unified Representation for Human-Robot Transfer in
Few-Shot Imitation Learning | Request PDF - ResearchGate, 2月 24,
2026にアクセス、
[https://www.researchgate.net/publication/395222869_Motion_Tracks_A_Unified_Representation_for_Human-Robot_Transfer_in_Few-Shot_Imitation_Learning]{.underline} -
Scaling Proprioceptive-Visual Learning with Heterogeneous
Pre-trained Transformers, 2月 24, 2026にアクセス、
[https://www.researchgate.net/publication/397204694_Scaling_Proprioceptive-Visual_Learning_with_Heterogeneous_Pre-trained_Transformers]{.underline} -
FurnitureBench: Reproducible real-world benchmark for long-horizon
complex manipulation, 2月 24, 2026にアクセス、
[https://www.researchgate.net/publication/388915514_FurnitureBench_Reproducible_real-world_benchmark_for_long-horizon_complex_manipulation]{.underline} -
A curated list of awesome LLM/VLM/VLA/World Model for Autonomous
Driving(LLM4AD) resources (continually updated) - GitHub, 2月 24,
2026にアクセス、
[https://github.com/Thinklab-SJTU/Awesome-LLM4AD]{.underline} -
机器人相关2026_2_12 - arXiv每日学术速递, 2月 24, 2026にアクセス、
[https://www.arxivdaily.com/thread/76535]{.underline}