PaliGemma

Google の 3B パラメータのマルチモーダルモデル(VLM)。SigLIP(400M、Vision Encoder)と Gemma(2.6B、LLM)から構成される。大規模 web データ事前学習による強力な表現を持ち、VLA の VLM バックボーンとして広く使われる。

VLA における役割

pi0 / π0.5 の VLM 部は PaliGemma で初期化される。多視点画像とタスクプロンプトを VLM 経路に流し、Action Expert (AE) が並列に行動をデコードするための事前知識を提供する。

Realtime-VLA の計測での π0.5 構成:

VLM (Gemma 2B)Action Expert (Gemma 300M)
hidden_size20481024
depth1818
mlp_dim163844096
num_heads / kv_heads8 / 18 / 1
head_dim256256

SigLIP は 224×224 画像を 256 トークンに変換し、multi_modal_projector(Linear 1152→2048)で言語次元に射影、言語トークンと結合して 18 層の Gemma を通し KV キャッシュを生成する(推論時 VLM は1回のみ実行)。

関連

siglip / pi0 / vla / transformer