SmolVLA

Hugging Face が 2026 年（arXiv:2506.01844）に発表した小型・効率重視の vla モデル。「単一 GPU で訓練でき、消費者向け GPU/CPU でも展開可能」を掲げ、約 4.5 億（450M）パラメータで 10 倍大きい VLA と同等性能を達成する。

アーキテクチャ

VLM: SmolVLM-2（SigLIP エンコーダ + SmolLM2 デコーダ）。前半 N=L/2 層のみ使うレイヤースキップで計算半減。VLM は凍結し Action Expert のみ学習。
Action Expert: flow-matching で学習する Transformer（約 100M）。VLM 隠れ次元 d に対し 0.75×d。Cross-Attention（VLM 特徴との相互作用）と Causal Self-Attention（アクショントークン間）を交互配置。
視覚トークン削減: 画像タイリングを使わず Pixel Shuffle で 1 フレーム 64 トークンに制限。
アクションチャンクサイズ n=50、推論時 Flow Matching 10 ステップ。

コミュニティデータ事前学習

Hugging Face 上の 481 のコミュニティデータセット（約 22.9K エピソード、10.6M フレーム）で事前学習。タスクアノテーションは Qwen2.5-VL-3B で自動生成、カメラ名は手動標準化。従来手法より 1 桁小さいデータ規模。

非同期推論

RobotClient（アクションキューを消費、閾値 |A_t|/n < g で新観測を送信）と PolicyServer（観測から行動チャンクを予測）に分離。g=0.7 でチャンク約 30% 消費時に予測をトリガーしアイドル時間と計算コストのバランスをとる。詳細は realtime-vla の非同期実行に連なる。

Quartz 5

Explorer

SmolVLA

SmolVLA

アーキテクチャ

コミュニティデータ事前学習

非同期推論

関連実験ノート

Graph View

Table of Contents

Backlinks