SmolVLA

Hugging Face が 2026 年(arXiv:2506.01844)に発表した小型・効率重視の vla モデル。「単一 GPU で訓練でき、消費者向け GPU/CPU でも展開可能」を掲げ、約 4.5 億(450M)パラメータで 10 倍大きい VLA と同等性能を達成する。

アーキテクチャ

  • VLM: SmolVLM-2(SigLIP エンコーダ + SmolLM2 デコーダ)。前半 N=L/2 層のみ使うレイヤースキップで計算半減。VLM は凍結し Action Expert のみ学習。
  • Action Expert: flow-matching で学習する Transformer(約 100M)。VLM 隠れ次元 d に対し 0.75×d。Cross-Attention(VLM 特徴との相互作用)と Causal Self-Attention(アクショントークン間)を交互配置
  • 視覚トークン削減: 画像タイリングを使わず Pixel Shuffle で 1 フレーム 64 トークンに制限。
  • アクションチャンクサイズ n=50、推論時 Flow Matching 10 ステップ。

コミュニティデータ事前学習

Hugging Face 上の 481 のコミュニティデータセット(約 22.9K エピソード、10.6M フレーム)で事前学習。タスクアノテーションは Qwen2.5-VL-3B で自動生成、カメラ名は手動標準化。従来手法より 1 桁小さいデータ規模。

非同期推論

RobotClient(アクションキューを消費、閾値 |A_t|/n < g で新観測を送信)と PolicyServer(観測から行動チャンクを予測)に分離。g=0.7 でチャンク約 30% 消費時に予測をトリガーしアイドル時間と計算コストのバランスをとる。詳細は realtime-vla の非同期実行に連なる。

関連実験ノート