SigLIP(Vision Encoder)

Sigmoid Loss for Language-Image Pre-training。CLIP 系の画像–言語対照学習を、softmax ベースの InfoNCE ではなく ペアごとの sigmoid 損失に置き換えた事前学習で得られる Vision Encoder(ViT 系)。バッチ全体の正規化が不要なため大バッチ・分散学習に向き、画像特徴の抽出器として多くの VLM / vla のフロントエンドに採用される。

VLM/VLA での役割

画像をパッチ列の特徴ベクトルに変換する「目」の部分。下流の VLM(言語デコーダ)にマルチモーダル投影を介して渡される。

  • smolvla / smolvlm: SmolVLM-2 の Vision Encoder として SigLIP を使用。
  • pi0(π₀): VLM = SigLIP + PaliGemma
  • Bi-LAT 等のプロンプト符号化でも CLIP/SigLIP 系が固定長ベクトル化に利用される(vla-architecture)。

テンソル形状(SmolVLA 実測)

SmolVLA の内部解析で観測された SigLIP の入出力:

段階形状説明
入力 pixel_values[1, 3, 384, 384]384×384 にリサイズ・正規化
出力 image_features[1, 729, 1152]27×27 = 729 パッチ × SigLIP 隠れ次元 1152
Multi-Modal Projector 後[1, 729, 1536]VLM(SmolVLM)の隠れ次元へ投影

凍結問題(位置汎化との関係)

SmolVLA の fine-tune では freeze_vision_encoder: TrueSigLIP は凍結される。smolvla-position-generalization の検証では、物体位置を 5cm 動かしても VLM hidden states が cosine 1.0000 と完全同一になり、SigLIP が位置差を十分エンコードできていない(あるいはその情報が下流に伝わらない)ことが位置汎化失敗の根因と示唆された。改善には Vision Encoder ごとの fine-tune、より高解像度入力、位置情報に敏感なエンコーダの検討が挙がる。

関連