PaliGemma
Google の 3B パラメータのマルチモーダルモデル(VLM)。SigLIP(400M、Vision Encoder)と Gemma(2.6B、LLM)から構成される。大規模 web データ事前学習による強力な表現を持ち、VLA の VLM バックボーンとして広く使われる。
VLA における役割
pi0 / π0.5 の VLM 部は PaliGemma で初期化される。多視点画像とタスクプロンプトを VLM 経路に流し、Action Expert (AE) が並列に行動をデコードするための事前知識を提供する。
Realtime-VLA の計測での π0.5 構成:
| VLM (Gemma 2B) | Action Expert (Gemma 300M) | |
|---|---|---|
| hidden_size | 2048 | 1024 |
| depth | 18 | 18 |
| mlp_dim | 16384 | 4096 |
| num_heads / kv_heads | 8 / 1 | 8 / 1 |
| head_dim | 256 | 256 |
SigLIP は 224×224 画像を 256 トークンに変換し、multi_modal_projector(Linear 1152→2048)で言語次元に射影、言語トークンと結合して 18 層の Gemma を通し KV キャッシュを生成する(推論時 VLM は1回のみ実行)。
関連
siglip / pi0 / vla / transformer