ハードウェア

論文アームグリッパやセンサカメラ備考
Bi-ACTOpenMANIPULATOR-X (ROBOTIS製、4DoF+グリッパー1DoF)標準グリッパーRGBカメラ2台(俯瞰、グリッパー)制御周期1000Hz

VLAモデル

論文アーキテクチャVLM入力備考
pi-0Conditional Flow Matching (VLM + Action Expert)PaliGemma 2B言語指示と1フレームの画像・観測データロボット状態は Action Expert に入力される
pi0.5Conditional Flow Matching (VLM + Action Expert)PaliGemma (π0ベース)言語指示と1フレームの画像・観測データロボット状態は VLM に入力される(テキストトークンとして離散化)
SmolVLAConditional Flow Matching (VLM + Action Expert)SmolVLM-2 (SigLIP + SmolLM2)言語指示と複数フレームの画像・観測データVLMレイヤースキップ、Cross/Self-Attention交互配置、非同期推論対応

VTLAモデル

論文ベースモデル力入力力出力
Bi-ACTACTあり(角度・角速度・トルク)あり(角度・角速度・トルク)
Bi-LATACTあり(角度・角速度・トルク)あり(角度・角速度・トルク)
FTACTACTありなし
OmniVTLAπ0あり(触覚センサ)なし
ForceVLAπ0あり(6軸力センサ)なし
Tactile-VLAπ0あり(触覚センサ)なし
VLA-Touch任意のVLA (GPT-4oをプランナーとして使用)あり(GelSight Mini触覚センサ)なし
VTLAQwen2-VL 7Bあり(視触覚センサ)なし
TLAQwen2 7Bあり(GelStereo 2.0視触覚センサ)なし
TA-VLAπ0あり(関節トルク)あり(将来トルク予測)