SmolVLA
Hugging Face が 2026 年(arXiv:2506.01844)に発表した小型・効率重視の vla モデル。「単一 GPU で訓練でき、消費者向け GPU/CPU でも展開可能」を掲げ、約 4.5 億(450M)パラメータで 10 倍大きい VLA と同等性能を達成する。
アーキテクチャ
- VLM: SmolVLM-2(SigLIP エンコーダ + SmolLM2 デコーダ)。前半 N=L/2 層のみ使うレイヤースキップで計算半減。VLM は凍結し Action Expert のみ学習。
- Action Expert: flow-matching で学習する Transformer(約 100M)。VLM 隠れ次元 d に対し 0.75×d。Cross-Attention(VLM 特徴との相互作用)と Causal Self-Attention(アクショントークン間)を交互配置。
- 視覚トークン削減: 画像タイリングを使わず Pixel Shuffle で 1 フレーム 64 トークンに制限。
- アクションチャンクサイズ n=50、推論時 Flow Matching 10 ステップ。
コミュニティデータ事前学習
Hugging Face 上の 481 のコミュニティデータセット(約 22.9K エピソード、10.6M フレーム)で事前学習。タスクアノテーションは Qwen2.5-VL-3B で自動生成、カメラ名は手動標準化。従来手法より 1 桁小さいデータ規模。
非同期推論
RobotClient(アクションキューを消費、閾値 |A_t|/n < g で新観測を送信)と PolicyServer(観測から行動チャンクを予測)に分離。g=0.7 でチャンク約 30% 消費時に予測をトリガーしアイドル時間と計算コストのバランスをとる。詳細は realtime-vla の非同期実行に連なる。
関連実験ノート
- smolvla-donut-pickplace / smolvla-position-generalization
- pi0 / act / vla-architecture
- _moc-ml-robotics(ml-robotics クラスタの atomic ノート群)