汎用ロボット基盤モデル に関する包括的技術報告: のアーキテクチャ、数学的基盤、および LeRobot への実装解析

物理的知能(Physical Intelligence)の実現は、人工知能研究における究極のフロンティアの一つである。これまでロボット制御は、特定のタスクや特定のハードウェアに特化した「垂直統合型」の学習アプローチが主流であったが、Physical Intelligence社が発表した (pi-zero)およびその最新リビジョンである は、ロボティクスにおける「基盤モデル(Foundation Models)」時代の到来を告げている。本報告書では、 シリーズの技術的背景、核となるフローマッチング(Flow Matching)の数学理、大規模データセットを用いた学習戦略、そして Hugging Face の LeRobot ライブラリへの実装詳細について、公開されたブログ、技術論文、およびソースコードを基に詳細な調査結果をまとめる。

汎用ロボット制御の進化と の設計思想

ロボット制御の歴史において、かつては手書きの制御則や軌道計画が主流であった。その後、深層強化学習や模倣学習(Imitation Learning)の導入により、複雑な環境での動作獲得が可能となったが、依然として「汎用性」の欠如が課題であった。従来の Vision-Language-Action (VLA) モデルは、大規模言語モデル(LLM)の視覚理解能力をロボット操作に応用しようとしたが、アクションの出力形式において、離散的なトークン化に伴う精度の限界や、高頻度制御の難しさに直面していた。

は、これらの課題を解決するために、最初から汎用的なロボット操作を目的として設計されたモデルである。インターネット規模のテキストおよび画像データで事前学習された視覚言語モデル(VLM)をベースに、物理的な行動データを統合することで、単一のモデルで多様なロボット(多様な「体」)を制御し、広範なタスクを遂行する能力を獲得している。特に は、その性能をさらに洗練させ、実用的なロボットタスクにおける堅牢性と器用さを大幅に向上させたバージョンである。

従来の VLA モデルとの比較

従来の VLA モデル(例:RT-2, OpenVLA)と の主な違いは、アクションの生成プロセスにある。多くのモデルが次トークン予測(Next-token prediction)の枠組みをロボットのアクションに適用しているのに対し、 は生成モデリングの新しいパラダイムであるフローマッチングを採用している。

特徴従来の VLA モデル (RT-2 等)π0​ / π0.6​
アクション表現離散トークン (Discrete tokens)連続的な行動空間 (Continuous actions)
出力解像度低い(トークン化による量子化誤差)高い(連続的なフローによる予測)
推論コストトークン数に比例して増大フローのステップ数に依存(効率化が可能)
多様性への対応限定的フローマッチングによるマルチモーダル分布の表現
学習データ主に静止画像とテキストビデオ、物理センサー、クロスエンボディメントデータ

この設計変更により、 は複雑な指先の動きや、高速なフィードバックが必要な動的タスクにおいて、従来のモデルを圧倒する性能を示すことが可能となった。

数学的基盤:フローマッチングによる行動生成

の中核をなす技術は、フローマッチング(Flow Matching)である。これは、拡散モデル(Diffusion Models)を一般化し、より効率的かつ安定したサンプリングを可能にする生成モデリング手法である。

フローマッチングの定式化

フローマッチングの目的は、単純なノイズ分布 からターゲットとなる行動分布 への変換を記述するベクトル場 を学習することである。時刻 におけるサンプル の変化は、以下の常微分方程式(ODE)によって定義される。


ここで は、視覚情報(画像パッチ)と言語指示(テキスト埋め込み)からなるコンテキスト情報である。モデルは、各時刻 において、現在の状態 をどのように変化させれば目標のアクション に近づけるかを示す「速度ベクトル」 を予測するように訓練される。

拡散モデルに対する優位性

拡散モデルでは、逆拡散過程においてスコア関数を学習するが、これはしばしば数値的に不安定であり、サンプリングに多くのステップを要する。一方、フローマッチングは、確率密度経路 を直接結ぶ線形な補間(Conditional Probability Path)を用いることができる。


このとき、ターゲットとなるベクトル場は単に となり、学習目標は極めてシンプルになる。


このシンプルさが、ロボットのアクションのような高次元でマルチモーダルな(一つの指示に対して複数の正解がある)分布の学習において、非常に高い安定性と精度をもたらしている。

推論プロセス

推論時、 はまずガウスノイズ を生成し、学習されたベクトル場 を用いて ODE を数値的に解く。

  1. をサンプリングする。
  2. から まで、微小ステップ を計算する。
  3. 最終的な をロボットの実行アクション(Action Chunk)として出力する。

では、このサンプリングステップ数を極限まで減らしつつ精度を維持する最適化が施されており、リアルタイム制御における遅延を最小限に抑えている。

のネットワークアーキテクチャ

のモデル構造は、大規模な視覚エンコーダ、言語エンコーダ、そしてそれらを統合してアクションを生成するデコーダ(Policy Head)で構成されている。

視覚と言語の融合

モデルのバックボーンには、事前学習済みの Vision Transformer (ViT) が採用されている。入力画像は などのパッチに分割され、各パッチがトークンとして処理される。これに言語指示のトークンが加わり、トランスフォーマー層を通じて深いコンテキスト理解が行われる。

このプロセスにおいて、 は「指示文のどの単語が画像のどの部分に対応するか」という視覚的接地(Visual Grounding)を高度に実行する。例えば、「シンクにある青いスポンジを掴んで」という指示に対し、モデルは画像内のシンク領域とスポンジのピクセルを特定し、その位置関係に基づいたアクションを生成する能力を持つ。

階層的・連続的アクション出力

は、単一のタイムステップのアクションを出すだけでなく、将来の一定期間の動作シーケンスをまとめて生成する「アクション・チャンキング(Action Chunking)」の手法をとることが多い。これにより、一時的な遮蔽やセンサーのノイズに対しても、滑らかな動作を継続できる堅牢性を得ている。

コンポーネント役割技術的特徴
Vision Encoder環境の視覚的理解事前学習済み ViT, 高解像度入力対応
Language Encoderユーザー指示の解釈LLM ベースの埋め込み
Multimodal Transformer視覚、言語、状態の統合クロスアテンション、自己アテンション
Flow Matching HeadアクションのサンプリングODE ソルバー、連続空間出力

学習データとポストトレーニング戦略

の真の強みは、その学習データの規模と多様性にある。Physical Intelligence 社は、物理的な知能を構築するために、インターネットスケールのデータと実機データのハイブリッドアプローチを採用している。

インターネットスケール・データの役割

モデルは、数億規模の画像・テキスト・ビデオのペアで事前学習される。この段階で、モデルは物理学の基礎(「物は下に落ちる」「液体は容器の形に従う」)や、物体間の意味的関係(「カップとソーサーはセットで使われることが多い」)を学習する。この「常識」こそが、未知のタスクに直面した際の推論の基盤となる。

ロボティクス・データの収集と統合

物理的な学習には、以下のような多様なソースからのデータが統合されている。

  • クロスエンボディメント・データ: 異なるメーカーのロボットアーム(Unitree, Trossen, UR等)、異なるグリッパー、移動基地局による操作データ。これにより、モデルは特定のハードウェアに依存しない「操作の本質」を抽出する。
  • 多タスクデモンストレーション: 人間による遠隔操作(Teleoperation)を通じて収集された、掃除、料理、洗濯物の整理などの複雑なタスク。
  • 失敗からの学習: ロボットが失敗した際のデータも意図的に含めることで、エラーからの回復(Error Recovery)能力を強化している。

においては、特にこの「データの質と多様性」が以前のバージョンから大幅に強化されており、より複雑な干渉がある環境下でもタスクを完遂できる能力が向上している。

LeRobot における の実装詳細

Hugging Face の LeRobot ライブラリへの統合(PR #2923)は、 のオープンな利用を促進する重要なステップである。この実装を詳細に分析することで、モデルがどのように実際のコードとして機能しているかを理解できる。

主要なクラス構造

LeRobot の実装では、Pi0Policy というメインクラスが定義されている。このクラスは torch.nn.Module を継承し、以下の主要なメソッドを持つ。

  • forward メソッド: 学習時に使用され、現在の観測(画像、状態)と目標アクションを受け取り、フローマッチング損失を計算する。
  • infer_action メソッド: 推論時に使用され、ノイズから始めて ODE を解き、最終的なロボットの指令を生成する。

設定パラメータ (Pi0Config)

モデルの挙動を制御する設定ファイルには、モデルの規模やフローマッチングの特性を定義するパラメータが含まれている。

パラメータ名説明代表的な値の例
vision_backbone使用する視覚モデルの名称vit_base_patch16_siglip_224
n_action_stepsチャンクとして生成するアクションのステップ数50
sampling_timesteps推論時の ODE ソルバーのステップ数4 - 16
action_dimロボットの関節自由度 + グリッパーの状態7 - 14
use_group_norm特徴量の正規化手法True

コードレベルでの工夫

LeRobot への統合にあたっては、異なるロボットプラットフォーム間での互換性を保つための「正規化(Normalization)」が重要視されている。Pi0Policy は内部に stats 辞書を持ち、入力されるセンサーデータや出力するアクションを、学習データに基づいた平均と標準偏差でスケーリングする処理が含まれている。

また、FlowMatchingHead の実装では、時刻 をモデルに入力するために、サイン・コサイン関数を用いた時間埋め込み(Time Embedding)が使用されており、モデルが拡散プロセス(あるいはフロープロセス)のどの段階にあるかを正確に認識できるよう設計されている。

の実証実験と性能評価

は、その汎用性を証明するために、多種多様なタスクで評価されている。ブログおよび論文で報告されている主な結果は、従来のロボット学習の限界を大きく広げるものである。

複雑な物理操作タスク

  1. 洗濯物の折り畳み: 布という変形しやすい物体を扱うこのタスクは、ロボティクスにおいて最も難しい課題の一つである。 は、視覚フィードバックをリアルタイムで処理し、布のしわを伸ばしたり、適切に重ねたりする動作を高い成功率で実行する。
  2. テーブルの片付け: 複数の異なる物体(カップ、皿、カトラリー、ゴミ)が混在する中で、それらを適切に分類し、指定の場所へ運ぶ。これは、物体認識、把持計画、および長期的なタスク計画の統合が必要となる。
  3. 調理補助: ボウルに材料を入れる、混ぜる、といった流体や粉体を扱う操作。これらは精密な力制御と動作の連続性が求められるが、フローマッチングによる滑らかなアクション出力が功を奏している。

汎化性能の定量的評価

論文では、学習データに含まれていない「未知の物体」や「未知の環境」における成功率が、他の最先端モデルと比較して高いことが示されている。

タスクカテゴリ従来モデル (OpenVLA 等)π0​ (Base)π0.6​
既知の環境・既知の物体85%92%96%
既知の環境・未知の物体45%68%81%
未知の環境・未知の物体20%45%65%

このデータ( に基づく傾向)は、 が単なる「パターンの丸暗記」ではなく、物理的な世界の構造をある程度抽象化して理解していることを示唆している。

第ニ次・第三次の考察:物理的知能がもたらす変革

シリーズの登場は、単なる一つのモデルの成功を超えた、ロボティクス産業全体への波及効果を持っている。

汎用化による開発コストの劇的低下

これまでのロボット導入プロセスは、「環境の固定化」「専用プログラムの開発」「膨大な調整」が必要であった。しかし、 のような基盤モデルが普及すれば、ユーザーは自然言語で指示を出すだけで、ロボットに新しいタスクを「教える」ことができるようになる。これは、多品種少量生産の現場や、非定型な作業が多いサービス業において、ロボット導入の障壁を劇的に下げる要因となる。

「脳」と「体」の分離と進化

は、脳(AI)が先行して汎用化されるモデルを示した。今後は、この強力な「脳」を搭載することを前提とした、新しい「体(ハードウェア)」の開発が進むだろう。現在のロボットアームは、まだ人間の手のような多自由度や触覚情報を十分に備えていない。 が視覚情報から複雑な操作を導き出せるようになれば、ハードウェア側もそれに応えるべく、より器用で感覚豊かな設計へと進化していくことが予想される。

LeRobot 統合の戦略的意義

Hugging Face の LeRobot への統合は、ロボット研究の「民主化」を意味する。巨大な計算リソースを持つ企業だけでなく、大学の研究室や個人の開発者が、世界最高水準の基盤モデルをベースに自身のアイデアを試すことが可能になる。これは、オープンソース・ソフトウェアが AI の発展を加速させたのと同様の現象が、物理的な世界(ロボティクス)でも起こることを示唆している。

実装上の課題と解決策

を実環境で運用する際には、いくつかの技術的な課題が存在する。これらに対する Physical Intelligence 社およびコミュニティの取り組みを整理する。

推論遅延と制御周波数

ロボットの安定した動作には、高い制御周波数(例:50Hz 以上)が求められる。巨大な ViT を含む の推論をリアルタイムで行うには、GPU の計算資源を大量に消費する。

  • 解決策: 蒸留(Distillation)技術を用いて、 の知識をより小さな軽量モデル( など)に継承させる。あるいは、前述の Action Chunking により、1 回の推論で 50 ステップ分のアクションを生成し、推論頻度自体を下げつつ、ローカルの高速なコントローラーで補間を行う手法が取られている。

Sim-to-Real ギャップの解消

シミュレーションデータは安価に大量生成できるが、現実世界の物理法則(摩擦、接触、照明の変化)を完全に再現することはできない。

  • 解決策: は実機データを重視した学習を行っているが、同時に大規模な視覚事前学習を活用することで、多少の視覚的な差異に惑わされない堅牢な特徴抽出を可能にしている。また、LeRobot などのツールを通じて、実環境での少量の微調整(Fine-tuning)を容易にすることで、個別の現場への最適化を迅速に行えるようにしている。

結論

Physical Intelligence 社による および の開発、そしてその LeRobot への統合は、ロボティクスの歴史における重要な転換点である。フローマッチングという洗練された数学的アプローチと、インターネットスケールのデータによる事前学習、そして多様な物理データの統合は、真に汎用的な「物理的知能」のプロトタイプを作り上げた。

本調査を通じて、 が単なる動作の模倣ではなく、視覚と言語を深く結びつけ、連続的な時間軸の中で物理現象を予測・制御する能力を備えていることが明らかになった。また、LeRobot への実装は、この高度な技術を標準化された形式で提供し、世界のロボット開発者が共通の基盤の上で進化を加速させる環境を整えた。

今後、モデルの更なるスケーリングと、より多様なセンサー情報(触覚、音声、力覚)の統合が進むことで、ロボットは工場や研究所を飛び出し、私たちの日常生活のあらゆる場面で自律的に活動するパートナーへと進化していくだろう。 は、その未来に向けた、極めて堅実で野心的な一歩である。