PaliGemma

Google の 3B パラメータのマルチモーダルモデル（VLM）。SigLIP（400M、Vision Encoder）と Gemma（2.6B、LLM）から構成される。大規模 web データ事前学習による強力な表現を持ち、VLA の VLM バックボーンとして広く使われる。

VLA における役割

pi0 / π0.5 の VLM 部は PaliGemma で初期化される。多視点画像とタスクプロンプトを VLM 経路に流し、Action Expert (AE) が並列に行動をデコードするための事前知識を提供する。

SigLIP は 224×224 画像を 256 トークンに変換し、multi_modal_projector（Linear 1152→2048）で言語次元に射影、言語トークンと結合して 18 層の Gemma を通し KV キャッシュを生成する（推論時 VLM は1回のみ実行）。