VLA

ハードウェア

論文	アーム	グリッパやセンサ	カメラ	備考
Bi-ACT	OpenMANIPULATOR-X (ROBOTIS製、4DoF+グリッパー1DoF)	標準グリッパー	RGBカメラ2台（俯瞰、グリッパー）	制御周期1000Hz

論文	アーキテクチャ	VLM	入力	備考
pi-0	Conditional Flow Matching (VLM + Action Expert)	PaliGemma 2B	言語指示と1フレームの画像・観測データ	ロボット状態は Action Expert に入力される
pi0.5	Conditional Flow Matching (VLM + Action Expert)	PaliGemma (π0ベース)	言語指示と1フレームの画像・観測データ	ロボット状態は VLM に入力される（テキストトークンとして離散化）
SmolVLA	Conditional Flow Matching (VLM + Action Expert)	SmolVLM-2 (SigLIP + SmolLM2)	言語指示と複数フレームの画像・観測データ	VLMレイヤースキップ、Cross/Self-Attention交互配置、非同期推論対応

論文	ベースモデル	力入力	力出力
Bi-ACT	ACT	あり(角度・角速度・トルク)	あり(角度・角速度・トルク)
Bi-LAT	ACT	あり(角度・角速度・トルク)	あり(角度・角速度・トルク)
FTACT	ACT	あり	なし
OmniVTLA	π0	あり(触覚センサ)	なし
ForceVLA	π0	あり(6軸力センサ)	なし
Tactile-VLA	π0	あり(触覚センサ)	なし
VLA-Touch	任意のVLA (GPT-4oをプランナーとして使用)	あり(GelSight Mini触覚センサ)	なし
VTLA	Qwen2-VL 7B	あり(視触覚センサ)	なし
TLA	Qwen2 7B	あり(GelStereo 2.0視触覚センサ)	なし
TA-VLA	π0	あり(関節トルク)	あり(将来トルク予測)