ハードウェア
| 論文 | アーム | グリッパやセンサ | カメラ | 備考 |
|---|
| Bi-ACT | OpenMANIPULATOR-X (ROBOTIS製、4DoF+グリッパー1DoF) | 標準グリッパー | RGBカメラ2台(俯瞰、グリッパー) | 制御周期1000Hz |
VLAモデル
| 論文 | アーキテクチャ | VLM | 入力 | 備考 |
|---|
| pi-0 | Conditional Flow Matching (VLM + Action Expert) | PaliGemma 2B | 言語指示と1フレームの画像・観測データ | ロボット状態は Action Expert に入力される |
| pi0.5 | Conditional Flow Matching (VLM + Action Expert) | PaliGemma (π0ベース) | 言語指示と1フレームの画像・観測データ | ロボット状態は VLM に入力される(テキストトークンとして離散化) |
| SmolVLA | Conditional Flow Matching (VLM + Action Expert) | SmolVLM-2 (SigLIP + SmolLM2) | 言語指示と複数フレームの画像・観測データ | VLMレイヤースキップ、Cross/Self-Attention交互配置、非同期推論対応 |
VTLAモデル
| 論文 | ベースモデル | 力入力 | 力出力 |
|---|
| Bi-ACT | ACT | あり(角度・角速度・トルク) | あり(角度・角速度・トルク) |
| Bi-LAT | ACT | あり(角度・角速度・トルク) | あり(角度・角速度・トルク) |
| FTACT | ACT | あり | なし |
| OmniVTLA | π0 | あり(触覚センサ) | なし |
| ForceVLA | π0 | あり(6軸力センサ) | なし |
| Tactile-VLA | π0 | あり(触覚センサ) | なし |
| VLA-Touch | 任意のVLA (GPT-4oをプランナーとして使用) | あり(GelSight Mini触覚センサ) | なし |
| VTLA | Qwen2-VL 7B | あり(視触覚センサ) | なし |
| TLA | Qwen2 7B | あり(GelStereo 2.0視触覚センサ) | なし |
| TA-VLA | π0 | あり(関節トルク) | あり(将来トルク予測) |