π0.5: a Vision-Language-Action Model with Open-World Generalization
Physical Intelligence, 2025年4月22日(arXiv公開)
Abstract
- Vision-Language-Action (VLA) モデル π0.5 を提案
- π0 をベースに、異種タスクでの共同学習(co-training)により広範な汎化を実現
- 複数のロボット、高レベル意味予測、Webデータなどを活用
- 画像観測・言語コマンド・物体検出・意味的サブタスク予測・低レベル行動を組み合わせたハイブリッドマルチモーダル例を使用
- 訓練データに含まれない新しい家庭で、キッチンや寝室の掃除といった長期的かつ器用な操作スキルを実行可能
I Introduction
| 項目 | 内容 |
|---|
| 課題 | オープンワールド汎化:ロボットがラボを離れ、現実世界の多様な状況に対応する必要性 |
| 核心的な問い | 柔軟な汎化を可能にするロボット学習システムの訓練レシピをどう設計するか |
| アプローチ | 異種の情報源(他のロボット、環境、Web、高レベル意味コマンド)からの経験・知識を転移 |
| π0.5の特徴 | モバイルマニピュレータで約400時間のデータ+非モバイルロボット、他条件下データ、Webデータで訓練 |
| データ構成 | 訓練例の97.6%(プリトレーニング時)はモバイルマニピュレータ以外のソースから |
| 階層的アーキテクチャ | 1) 異種タスク混合でプリトレーニング → 2) モバイル操作用にファインチューニング |
| 推論時 | 高レベル意味サブタスクを予測 → そのサブタスクに基づき低レベルロボット行動を予測 |
| 主な貢献 | 訓練データにない新しい家庭でキッチン・寝室掃除などの長期的・器用な操作を実行(初の実証) |
| トピック | 概要 |
|---|
| 汎用ロボット操作ポリシー | 多様なデータセットで訓練することで新シーン・タスクへの汎化が向上。VLAは事前学習VLMの意味知識を活用可能 |
| 非ロボットデータでの共同学習 | VLAアーキテクチャは視覚・言語・行動の入出力シーケンス間マッピングが柔軟。他ロボット、高レベル意味予測、言語指示など多様な監督ソースでの共同学習を設計 |
| 言語によるロボット推論・計画 | 高レベル推論でエンドツーエンドポリシーを強化。本手法は同一モデルで高レベル・低レベル推論を実行(chain-of-thoughtに類似) |
| オープンワールド汎化 | 基本プリミティブに限定すれば既存手法で新環境汎化は可能だが汎用タスクには不十分。π0.5は新しい家庭で長期・多段階タスク実行を実証 |
III Preliminaries
- VLAの訓練: 模倣学習により、観測otと言語指示ℓから行動at:t+Hの対数尤度を最大化
- 観測: 1枚以上の画像と固有受容状態(関節位置など)
- VLAアーキテクチャ: モダリティ固有トークナイザ+大規模自己回帰Transformer
- 行動表現: プリトレーニング時はFASTトークナイザ(離散)、ポストトレーニング時はπ0同様Flow Matchingで連続行動分布を表現
- Action Expert: 行動トークン専用の小規模モデル重み(mixture of expertsに類似)
IV The π0.5 Model and Training Recipe
IV-A The π0.5 Architecture
- 出力分布: πθ(at:t+H,ℓ^∣ot,ℓ) を高レベル(ℓ^: サブタスク予測)と低レベル(行動)に分解
- 分解形式: πθ(at:t+H,ℓ^∣ot,ℓ)=πθ(at:t+H∣ot,ℓ^)⋅πθ(ℓ^∣ot,ℓ)(行動はℓではなくℓ^に依存)
- 入力: マルチモーダルトークン(テキスト、画像パッチ、ノイズ付き行動)
- Attention: 画像パッチ・プロンプト・行動トークンは双方向Attention
- 出力: テキストトークンロジット(サブタスク出力等)+Action Expertによる連続行動出力
- ベースモデル: PaliGemma VLM(2Bパラメータ)+ Action Expert(300Mパラメータ)
- 固有受容状態: テキストトークンとして離散化して入力
IV-B Combining Discrete & Continuous Action Representations
| 手法 | 説明 |
|---|
| Flow Matching | 連続行動を予測。ノイズωから真の行動への流れベクトル場を学習 |
| FASTトークン | 離散トークンで行動を表現。訓練は高速だがリアルタイム推論に不向き |
| 本手法 | 両方を同時に訓練。プリトレーニング時はFAST(α=0)、ポストトレーニング時にAction Expert追加(α=10.0) |
| 推論時 | テキストトークンを自己回帰デコード → 10ステップのデノイジング(Flow Matching)で連続行動を生成 |
IV-C Pre-training
| データソース | 略称 | 内容 |
|---|
| Mobile Manipulator | MM | 約400時間、約100の家庭環境でモバイルマニピュレータによる家事タスク |
| Multi-Environment non-mobile | ME | 固定アームを多様な家庭環境で使用(より軽量で多様な環境収集が可能) |
| Cross-Embodiment lab | CE | ラボ環境で様々なロボット・タスク(OXEデータセット含む) |
| High-Level subtask | HL | 高レベルコマンドをサブタスクに分解。サブタスクラベル+バウンディングボックスを予測 |
| Web Data | WD | 画像キャプション、QA、物体位置特定(室内シーン・家庭用品のデータを追加) |
- 行動正規化: 各次元の1%/99%分位数で[-1,1]に正規化
- プリトレーニング: 280kステップ
IV-D Post-training
- 目的: モバイル操作に特化+Flow Matching用Action Expert追加
- 訓練ステップ: 80k追加ステップ(α=10.0)
- Action Expertの初期化: ポストトレーニング開始時にランダム重みで初期化
- データ: MM・MEの成功エピソード(一定長以下にフィルタリング)、WD、HL(ME対応分)
- Verbal Instruction (VI): 専門ユーザーが言語でロボットを「テレオペ」し、適切なサブタスク指示を実演。高レベルモバイル操作例の約11%を構成
IV-E Robot System Details
| 項目 | 仕様 |
|---|
| プラットフォーム | 2種類のモバイルマニピュレータ |
| アーム | 2本の6DoFアーム+パラレルジョーグリッパー |
| カメラ | 4台(前方・後方・両手首) |
| ベース | ホロノミック車輪ベース(2D線形+1D角速度) |
| トルソリフト | 1Dまたは2D |
| 状態・行動次元 | 18〜19次元 |
| 制御周波数 | 50Hz(行動チャンキング) |
| 行動ホライズン | 50タイムステップ(H=49) |
| 制御方式 | PDコントローラでターゲット追従、軌道計画・衝突検出なし |
| 推論時カメラ | 高レベル推論: 4台全て使用、低レベル推論: 手首カメラ+前方カメラ |
V Experimental Evaluation
V-A Can π0.5 Generalize to Real Homes?
- 評価環境: 訓練データにない3軒の実家庭(キッチン3つ、寝室3つ)
- タスク例: 食器をシンクに入れる、アイテムを引き出しに収納、洗濯物をかごに入れる
- 結果: 各家庭で様々なタスクを一貫して成功。タスクは2〜5分の多段階作業
- ポイント: 高レベル推論が自律的にステップを決定(例: “pick up the cup”)
- 意義: 従来VLAを大幅に超える新規性・タスク複雑性での汎化を実証
V-B How Does Generalization Scale with the Number of Scenes?
- 実験: 訓練環境数(3, 12, 22, 53, 82, 104箇所)を変化させて汎化性能を測定
- 結果: 訓練環境数の増加に伴い性能が向上
- 比較: 104環境モデルはテスト環境で訓練したモデルと同等性能を達成
- 言語追従: 環境数増加で言語追従率・成功率が向上。OODオブジェクトでも改善
V-C How Important is Each Part of Our Co-training Recipe?
| アブレーション | 結果 |
|---|
| no WD (Webデータなし) | 全体タスクでは有意差なし、ただしOODオブジェクトの言語追従で大幅低下 |
| no ME (多環境非モバイルなし) | 大幅な性能低下 |
| no CE (ラボクロスエンボディメントなし) | 大幅な性能低下 |
| no ME or CE | さらに大きな低下 |
- 結論: クロスエンボディメント転移(ME・CE両方)が汎化に不可欠
V-D How Does π0.5 Compare to Other VLAs?
- 比較対象: π0、π0-FAST+Flow(FASTとFlow Matchingの併用だがHL・WDなし)
- 公平な比較条件: 全モデル同一のクロスエンボディメントロボット訓練セット、同等の訓練ステップ数
- 結果: π0.5が両者を大幅に上回る
- 理由: (1) HL・WDデータの追加 (2) プリトレーニング時の離散トークン+ポストトレーニング時のFlow Matchingというハイブリッド手法
- 参考: π0を300kステップまで長時間訓練しても性能は及ばず、FASTトークンでの訓練が純粋なDiffusionベース訓練より計算効率が高いことを確認
V-E How Important is High-level Inference?
| 手法 | 結果 |
|---|
| π0.5(フル) | 最高性能(human HL “oracle”も上回る) |
| implicit HL(推論なし、訓練時HLあり) | 2番目に良い。訓練時のサブタスク予測データが暗黙的に貢献 |
| no HL(訓練・推論ともなし) | 大幅低下 |
| no VI(言語実演なし) | 大幅低下(VI はHL例の約11%だが重要) |
| no WD | 大幅低下(Webデータは高レベルポリシー向上に寄与) |
| GPT-4(ゼロショット) | 最低性能(ロボットデータでの適応が重要) |
VI Discussion and Future Work
貢献のまとめ
- π0.5は約400時間のモバイル操作データ+他ロボット・Web・高レベル予測データで訓練
- 訓練データにない新しい家庭でキッチン・寝室掃除、ベッドメイキング、タオル掛けなど多段階・器用な行動を実行
- 共同学習レシピにより、中規模データセットでも高い汎化性能を達成
制約と今後の方向性
| 項目 | 内容 |
|---|
| 現在の課題 | 見慣れないドアハンドル、部分観測での困難、高レベル推論の気が散る問題 |
| プロンプトの制約 | 比較的単純なプロンプトのみ対応。より複雑な嗜好・指示にはアノテーション拡充が必要 |
| コンテキスト | 現在は限定的。より豊富なコンテキスト・メモリで部分観測問題に対応可能 |
| 言語指示からの学習 | 人間が言語でロボットに文脈知識を与える新しい監督形式の可能性 |