Abstract

  • ロボット学習は柔軟で汎用的なロボットシステムの可能性を解放する大きな可能性を持つが、データ、汎化、堅牢性の面で課題がある
  • 本論文では、汎用ロボットポリシー(ロボット基盤モデル)がこれらの課題にどのように対処できるかを議論
  • 事前学習済みVLM(Vision-Language Model)の上に構築された新しいFlow Matchingアーキテクチャを提案し、インターネット規模の意味知識を継承
  • 単腕・双腕ロボット、移動マニピュレータなど複数の器用なロボットプラットフォームからの大規模かつ多様なデータセットで学習
  • 事前学習後のゼロショット性能、言語指示追従、新しいスキル獲得(ファインチューニング)を評価
  • 洗濯物たたみ、テーブル清掃、箱の組み立てなど多様なタスクをカバー

I. Introduction

項目内容
背景人間の知能が機械を上回る軸は「多様性」(多様なタスクを物理環境で遂行する能力)
VLMの限界大規模言語・視覚言語モデルは物理的世界に真に位置づけられておらず、物理的相互作用の理解は抽象的記述に基づく
汎用ロボットポリシーの利点データ不足の解消(他タスク・他ロボット・非ロボットデータの活用)、堅牢性・汎化の向上
課題大規模でなければ恩恵が得られない、複雑な物理シーンに対応できるアーキテクチャが必要、適切な学習レシピが必要
π₀の特徴VLM事前学習を活用、クロスエンボディメント学習、アクションチャンキング+Flow Matching(最大50Hzの制御)、新しいaction expertの導入
学習レシピ事前学習/事後学習(pre-training/post-training)の分離(LLMと同様のアプローチ)
評価10,000時間以上のロボットデータで事前学習し、洗濯物たたみ、テーブル片付け、食器を電子レンジに入れる、卵のパッキング、箱の組み立て、食料品の袋詰めなど多様なタスクでファインチューニング
関連分野説明
Vision-Language-Action (VLA) モデル先行研究(RT-2等)はVLMをファインチューニングしてロボット制御に使用、自己回帰的離散化でアクションを表現。π₀は高頻度アクションチャンク(最大50Hz)を扱うためFlow Matchingを採用
拡散モデル画像生成で拡散とLLMを組み合わせる研究が多数存在。π₀はTransfusion(Zhou et al., 2024)の概念を取り入れ、Flow Matchingロスで個別のシーケンス要素を学習。Liu et al. (2024)と同様に、拡散トークン用の別の重みセットを使用
大規模ロボット学習初期は自己教師あり/自律的データ収集(把持や押しなど単純タスク)。最近は高品質データセットが収集されているが、多くは物体移動や基本的な家具操作に限定
データ規模本研究は約10,000時間のデモンストレーションを使用(OXEデータセットと組み合わせ)。これまでのロボット学習実験で最大規模
タスクの複雑さ先行研究(靴紐結び、エビ調理など)を超え、数十分の長いタスク(物理的器用さと組み合わせ的複雑さの両方)を実証

π₀をベースにした後続研究

π₀のアーキテクチャは後続の研究で広く活用されています:

研究拡張内容
ForceVLAπ₀のVLM処理後にFVLMoE(Force-aware MoE)を追加し、6軸力センシングを統合。接触を多用するタスクで平均23.2%の成功率向上
OmniVTLAπ₀をベースにデュアルパス触覚エンコーダ(ViT + SA-ViT)を追加。視覚ベースと力ベースの触覚センサの両方に対応
TA-VLAπ₀のデコーダにトルクアダプタを追加。トルク履歴を単一トークンに集約し、将来トルク予測を補助タスクとして導入

III. Overview

  • 事前学習ミクスチャ: 自社の器用な操作データセット(7つのロボット構成、68タスク)とOXEデータセット全体(22ロボット)を組み合わせ
  • 事前学習フェーズ: タスク名とセグメントアノテーション(約2秒の細粒度ラベル)を含む多様な言語ラベルを使用。広範な能力と汎化を持つが、特定タスクに特化していないベースモデルを訓練
  • 事後学習フェーズ: 小〜中規模の高品質なタスク特化データで効率的にファインチューニング。複雑なタスク(洗濯物たたみ、モバイルマニピュレーション)には大規模データを使用
  • モデル基盤: PaliGemma VLMをベースに使用(比較的小さく実時間制御に有用)。任意のVLMと互換性あり

IV. The π₀ Model

コンポーネント説明
アーキテクチャ言語モデルTransformerバックボーンが主体。late fusion VLMレシピに従い、画像エンコーダがロボットの画像観測を言語トークンと同じ埋め込み空間にマッピング
入出力観測 o_t = [I_t^1, ..., I_t^n, l_t, q_t](複数RGB画像、言語コマンド、固有受容状態)。アクションチャンク A_t = [a_t, ..., a_{t+H-1}](H=50ステップ)を出力
Flow Matching条件付きFlow Matchingで連続的なアクション分布をモデル化。高精度かつマルチモーダルな表現が可能。線形ガウス(最適輸送)確率パスを使用
Action ExpertVLMバックボーンとは別の重みセット(約300Mパラメータ)。アクションと状態トークン専用。2要素のMixture of Expertsに類似
推論ノイズ A_t^0 ~ N(0, I) から開始し、学習したベクトル場を積分(10ステップのフォワードオイラー積分、δ=0.1)
ベースモデルPaliGemma(30億パラメータ)+ action expert(3億パラメータ)= 合計33億パラメータ
π₀-smallVLM初期化なしの470Mパラメータベースラインモデル(アブレーション実験用)

Flow Matchingの詳細

条件付きFlow Matchingロス関数:

L_τ(θ) = E_{p(A_t|o_t), q(A_t^τ|A_t)} ||v_θ(A_t^τ, o_t) - u(A_t^τ|A_t)||²

ここで、τ ∈ [0,1] はFlow Matchingのタイムステップ。線形ガウス(最適輸送)確率パスを使用:

q(A_t^τ|A_t) = N(τ·A_t, (1-τ)·I)

学習時は、ランダムノイズ ε ~ N(0, I) をサンプリングし、ノイズ付きアクション A_t^τ = τ·A_t + (1-τ)·ε を計算。ネットワーク出力 v_θ(A_t^τ, o_t) がデノイジングベクトル場 u(A_t^τ|A_t) = ε - A_t と一致するよう学習。

Action Expertの設計根拠

Transfusion(Zhou et al., 2024)に基づき、拡散スタイル(Flow Matching)のロスを個別シーケンス要素に適用。Liu et al. (2024)と同様に、ロボット固有(アクションと状態)トークン用に別の重みセットを使用することで性能が向上することを発見。これは2要素のMixture of Expertsに類似しており、画像・テキスト入力は第1要素(VLMバックボーン)へ、ロボット固有入出力は第2要素(action expert)へルーティングされる。

V. Data Collection and Training Recipe

V-A. Pre-training and post-training

項目詳細
事前学習ミクスチャOXE(9.1%)、Bridge v2、DROID + 自社データ(903Mタイムステップ:単腕106M、双腕797M)
自社データ68タスク(各タスクは複雑な行動の集合。例:「bussing」は様々な皿・カップ・カトラリーをビンに、ゴミをゴミ箱に入れる)
データの重み付けタスク-ロボットの組み合わせを n^0.43 で重み付け(過剰表現された組み合わせを下方修正)
アクション次元最大ロボット(18次元:6DoF腕×2 + グリッパー×2 + モバイルベース + トルソー)に合わせ、小さいロボットはゼロパディング
事後学習データタスクにより5〜100時間以上と異なる

V-B. Language and high-level policies

  • 意味推論と高レベル戦略が必要な複雑タスク(テーブル片付けなど)には、高レベルVLMポリシーがタスク分解を支援
  • SayCanに類似したアプローチ:「テーブルを片付ける」→「ナプキンを拾う」「ナプキンをゴミ箱に捨てる」などの中間サブタスクに分解

V-C. Robot system details

ロボット仕様
UR5e平行グリッパー付き腕、2カメラ、7次元アクション空間
Bimanual UR5e2台のUR5e、3カメラ、14次元アクション空間
Franka2カメラ、8次元アクション空間
Bimanual TrossenALOHA構成の2つの6DoF腕、3カメラ、14次元アクション空間
Bimanual ARX/AgileX2つの6DoF腕、3カメラ、14次元アクション空間
Mobile Trossen/ARXMobile ALOHAベース、2つの6DoF腕+非ホロノミックベース、3カメラ、16次元アクション空間
Mobile Fibocom2つの6DoF ARX腕+ホロノミックベース、3カメラ、17次元アクション空間

VI. Experimental Evaluation

VI-A. Evaluating the base model

評価タスク説明
Shirt foldingTシャツをたたむ
Bussing easyテーブル片付け(ゴミとお皿を正しい容器に分別)、7オブジェクト
Bussing hardより困難な片付け(カトラリーがゴミの上に置かれている等)、12オブジェクト
Grocery bagging食料品の袋詰め
Toast out of toasterトースターからトーストを取り出す
比較手法結果
π₀ (700k steps)全タスクで最高性能、シャツたたみと簡易片付けでほぼ完璧
π₀ (160k steps, compute parity)ベースラインを全て上回る。160kステップはOpenVLA(160k)、Octo(320k)と同等またはそれ以下の学習ステップ数
π₀-smallOpenVLA, Octoを上回る
OpenVLA7Bパラメータ、元はOXEで学習。π₀の学習データ全体で再学習したが、アクションチャンク非対応のため苦戦。UR5eデータのみでファインチューニングしたバージョンも試したがπ₀には及ばず
Octo93Mパラメータ、拡散プロセスでアクション生成をサポート。π₀と同じデータで学習したが、表現力が限定的

比較手法の詳細:

  • OpenVLA: 自己回帰的離散化アーキテクチャを使用し、アクションチャンクをサポートしていないため、高頻度の器用なタスクで苦戦
  • Octo: VLAではないがアクションチャンクをサポート。比較的小さいパラメータ数のため表現力に限界
  • 公平な比較のため、OpenVLAとOctoは同じデータミクスチャで学習。時間的制約により、全モデルを同一エポック数で学習できなかったため、π₀の160kステップ版(compute parity)も評価

結論: VLM事前学習とFlow Matching/拡散による複雑分布モデリングの組み合わせが重要

VI-B. Following language commands

評価タスク内容
Bussing指示に従い正しいオブジェクトを拾い正しい容器に配置(30指示/エピソード)
Table settingビンからアイテムを取り出しテーブルをセット(20指示/エピソード)
Grocery bagging指定された食料品を袋詰め(14指示/エピソード)
条件説明
flatタスク説明のみ(「食料品を袋詰めする」)
human人間専門家からの中間ステップ指示
HL高レベルVLMからの自律的指示

結果: π₀はπ₀-smallより言語追従精度が大幅に向上。VLM初期化により言語理解能力が向上し、高レベルガイダンスによる自律性能向上に直結

VI-C. Learning new dexterous tasks

タスク難易度説明
UR5e stack bowlsEasy4つのボウルを重ねる(事前学習のbussingに類似)
Towel foldingEasyタオルをたたむ(事前学習のシャツたたみに類似)
Tupperware in microwaveMedium電子レンジを開け、容器を入れ、閉める(電子レンジは事前学習に無し)
Paper towel replacementHardペーパータオルロールを交換(事前学習に類似アイテム無し)
Franka items in drawerHard引き出しを開け、アイテムを入れ、閉める(Frankaでの類似タスク無し)
比較手法結果
π₀全般的に最高性能
ACT, Diffusion Policyスクラッチ学習では健闘するが、事前学習のメリットを活かせない
OpenVLA, Octo大幅に劣る

結論: 事前学習は特に事前学習データに類似したタスクで大きな改善をもたらし、事前学習モデルは非事前学習モデルを最大2倍上回る

VI-D. Mastering complex multi-stage tasks

タスク説明事前学習有無
Laundry foldingランダムなくしゃくしゃ状態から衣類をたたむ
Mobile laundryモバイルロボットで洗濯物たたみ
Dryer unloading乾燥機から洗濯物をハンパーに移す
Table bussing多様な未知オブジェクトの片付け、複雑な器用動作が必要
Box building平らな段ボール箱を組み立て
To-go box食品を容器に詰めて蓋を閉める
Packing eggs6個の卵を卵パックに詰めて蓋を閉める

結果:

  • π₀は全タスクで50%以上のスコアを達成
  • 特に難しいタスクで事前学習の恩恵が大きい
  • 事前学習+ファインチューニングの組み合わせが最も効果的

VII. Discussion, Limitations and Future Work

項目内容
貢献VLM事前学習とFlow Matchingを組み合わせたロボット基盤モデルフレームワーク。10,000時間の器用操作データ(7ロボット構成、68タスク)+ OXE/DROID/Bridgeで事前学習。20以上のタスクでファインチューニング評価
LLMとの類似性事前学習で「知識」を獲得、事後学習でその知識の活用方法を学習。高品質データのみでは回復動作を学習できず、事前学習データのみでは流暢な戦略を学習できない
制限事項事前学習データセットの最適な構成は未解明。全タスクが完璧に動作するわけではない。どの程度・どの種類のデータで完璧な性能が得られるか予測困難
今後の課題多様なデータ(異なるタスク・ロボット)を組み合わせた際の正の転移の程度を理解。自動運転、ナビゲーション、脚歩行ロボットなど異なるドメインへの汎用性の検証

Acknowledgements

  • Laura Smith, Dibya Ghoshによる論文へのフィードバックと図・動画作成の支援
  • Philip Clark, Kelly Sims, Saunaz Moradiによる執筆へのフィードバック
  • Evan Pokrandt, Joakim Keussen, Dan Philibin, Eitan Penner, Adam Lisagor, Greg Millerによるイラスト・デザイン・動画作成の支援
  • Lili Yuによる技術的議論
  • ロボット操作データを収集した全てのロボットオペレーターへの感謝
  • プロジェクトウェブサイト: https://physicalintelligence.company/blog/pi0
  • オープンソース実装: https://github.com/Physical-Intelligence/openpi

主要な参考文献

本論文で引用されている主要な文献:

分野主要文献
VLART-2 (Brohan et al., 2023), OpenVLA (Kim et al., 2024)
拡散モデル/Flow MatchingDiffusion Policy (Chi et al., 2023), Flow Matching (Lipman et al., 2022, Liu, 2022)
VLMバックボーンPaliGemma (Beyer et al., 2024), Gemma (Team et al., 2024)
ロボット学習データセットOXE (Collaboration et al., 2023), DROID (Khazatsky et al., 2024), Bridge v2 (Walke et al., 2023)
器用操作ACT (Zhao et al., 2023), Mobile ALOHA (Fu et al., 2024), ALOHA Unleashed (Zhao et al., 2024)
Transformer+拡散の統合Transfusion (Zhou et al., 2024), DiT (Peebles & Xie, 2023)
高レベルポリシーSayCan (Ahn et al., 2022)
汎用ロボット学習Octo (Team et al., 2024b)

Appendix A

A-A. Contributions

貢献領域担当者
データ&オペレーションNoah Brown, Michael Equi, Chelsea Finn, Niccolo Fusai, Lachy Groom, Liyiming Ke, Suraj Nair, Lucy Shi, Anna Walling
評価実験Kevin Black, Michael Equi, Chelsea Finn, Brian Ichter, Liyiming Ke, Adrian Li-Bell, Suraj Nair, Karl Pertsch, Lucy Shi
モデル設計Kevin Black, Brian Ichter, Sergey Levine, Karl Pertsch, Lucy Shi, Quan Vuong
事後学習Michael Equi, Chelsea Finn, Liyiming Ke, Adrian Li-Bell, Suraj Nair, Lucy Shi
事前学習Kevin Black, Danny Driess, Brian Ichter, Sergey Levine, Karl Pertsch, Lucy Shi, Quan Vuong
ロボットハードウェアNoah Brown, Adnan Esmail, Chelsea Finn, Tim Jones, Mohith Mothukuri
ロボットソフトウェアKarol Hausman, Szymon Jakubczak, Sergey Levine, James Tanner, Haohuan Wang
学習インフラKevin Black, Michael Equi, Sergey Levine, Adrian Li-Bell, Suraj Nair, Quan Vuong, Haohuan Wang, Ury Zhilinsky
執筆&イラストKevin Black, Chelsea Finn, Lachy Groom, Karol Hausman, Brian Ichter, Sergey Levine, Quan Vuong

A-B. Model Architecture Details

項目詳細
ベース設計PaliGemma VLMに基づく。ロボット固有トークン用の入出力プロジェクション、Flow Matchingタイムステップ用MLP、action expert用の第2の重みセットを追加
追加入出力標準PaliGemmaは画像列 + 言語プロンプトを入力。固有受容状態 q_t を線形射影で追加。ノイズ付きアクションチャンク A_t^τ をトークンとして入力(H=50トークン)
Flow Matchingタイムステップの組み込みノイズ付きアクションをMLPでTransformer埋め込み次元にマッピング。式: W3 · swish(W2 · concat(W1 · a_t'^τ, φ(τ))) (φは正弦波位置エンコーディング)
アテンションマスクブロックワイズ因果アテンションマスク(3ブロック): (1) 画像+言語、(2) ロボット状態、(3) ノイズ付きアクション。各ブロック内は双方向アテンション、ブロック間は未来へのアテンション禁止
Action Expert2セットの重みを持つ単一Transformer。画像+言語はVLMバックボーン(PaliGemma初期化)へ、状態+アクションはaction expertへルーティング
VLMバックボーン構成Gemma 2Bベース: width=2048, depth=18, mlp_dim=16384, num_heads=18, num_kv_heads=1, head_dim=256
Action Expert構成width=1024, mlp_dim=4096 → 約300Mパラメータ
タイムステップサンプリングBeta分布を使用し、低いタイムステップ(高ノイズ)を強調。p(τ) = Beta((s-τ)/s; 1.5, 1)、s=0.999。高タイムステップはサンプルしない

A-C. Non-VLM Baseline Architecture (π₀-small)

項目π₀-small の特徴
パラメータ数約470M
言語エンコーディングDistilBERTを使用(言語モデルバックボーンなしのため)
アーキテクチャaction expertがobservationエンコーダ出力にクロスアテンション(従来のencoder-decoder Transformer風)
画像エンコーダ小さい事前学習済みViT(R26-S-32 ResNet-ViTハイブリッド)
ViT重み共有画像エンコーダ間で重み非共有
事前学習observation用Transformerバックボーンはインターネットデータで事前学習なし
action expertDiTアーキテクチャ使用、AdaLN-Zeroレイヤーでタイムステップτを組み込み

A-D. Inference

項目詳細
推論手順1. 各画像をエンコード 2. 観測トークンに対するフォワードパス 3. 10ステップのFlow Matching(観測のkey/valueはキャッシュ)
推論時間(RTX 4090)画像エンコーディング: 14ms、prefix(VLM): 32ms、prefill(action expert): 27ms、Flow Matching(10ステップ): 13ms、合計: 約86ms。モバイルロボットではWi-Fi経由でオフボード推論のため追加のネットワークレイテンシあり
アクション実行Hステップのアクションチャンクを一度に生成。temporal ensemblingは性能低下のため不採用、オープンループで実行
推論頻度20Hz ロボット(UR5e, Franka): 0.8秒ごと(16アクション後)、50Hz ロボット: 0.5秒ごと(25アクション後)

A-E. Evaluation Details

ベースモデル評価のスコアリング

タスクスコアリング方法
Shirt folding成功/失敗。袖を折り込み、縦に1回半分に折れば成功。4枚の小さいTシャツ + 1枚の中サイズTシャツ、各2試行、最大15000ステップ(約5分)
Bussing easy7点満点。7オブジェクトを正しく分別すると各1点
Bussing hard12点満点。12オブジェクト(箸がゴミの上等の困難な配置含む)を正しく分別すると各1点
Grocery bagging7点満点。7つの食料品を袋に入れると各1点
Toast out of toaster4点満点。各トースト: トースターから取り出し1点、皿に置き1点

言語指示追従のスコアリング

タスクスコアリング方法
Bussing12オブジェクト、約30指示/エピソード。正しいオブジェクトを正しい容器に配置
Table setting7オブジェクト、約20指示/エピソード。食器・カトラリー・ナプキンを言語仕様に従い配置
Grocery bagging7オブジェクト、約14指示/エピソード。コーヒー豆、大麦、マシュマロ、キャットフード、スパゲティ、海苔、アーモンドを袋詰め

新タスク学習のスコアリング

タスクスコアリング方法
Stack bowls3点満点。大きいボウルに2つ重ねて各1点、仕上がりの整頓度1点
Towel folding3点満点。1回目の半分折り1点、2回目の半分折り1点、仕上がりの整頓度1点
Tupperware in microwave4点満点。電子レンジを開ける1点、タッパーを持つ1点、入れる1点、閉める1点
Paper towel replacement4点満点。古いロールを掴む1点、外す1点、新しいロールを掴む1点、設置1点
Items in drawer5点満点。引き出しを開ける1点、3アイテムを入れる各1点、閉める1点

複雑なマルチステージタスクのスコアリング

タスクスコアリング方法
Laundry folding4点満点(5アイテム: M/L/XLシャツ3枚、28/36ショーツ2枚)。ビンから出す1点、平らにする1点、たたむ1点、積む/配置1点。最大15000ステップ(約5分)
Mobile laundry同上(M/M/XLシャツ3枚、32/31Wショーツ2枚)
Table bussing12点満点。12オブジェクトを正しく分別すると各1点
Box building5点満点。箱を持ち上げる1点、半分に折る1点、右フラップを閉じる1点、左フラップを閉じる1点、整える1点
Packing eggs7点満点。6個の卵を正しいスロットに各1点、蓋を閉める1点
Packing food5点満点。皿を持つ1点、3つの食品を入れる各1点、蓋を閉める1点
Dryer unloading5点満点。乾燥機に接近1点、ハンパーを置く1点、乾燥機を開ける1点、全て入れる1点、閉める1点(3シャツ+2ショーツ)