SigLIP（Vision Encoder）

Sigmoid Loss for Language-Image Pre-training。CLIP 系の画像–言語対照学習を、softmax ベースの InfoNCE ではなく ペアごとの sigmoid 損失に置き換えた事前学習で得られる Vision Encoder（ViT 系）。バッチ全体の正規化が不要なため大バッチ・分散学習に向き、画像特徴の抽出器として多くの VLM / vla のフロントエンドに採用される。

VLM/VLA での役割

画像をパッチ列の特徴ベクトルに変換する「目」の部分。下流の VLM（言語デコーダ）にマルチモーダル投影を介して渡される。

smolvla / smolvlm: SmolVLM-2 の Vision Encoder として SigLIP を使用。
pi0（π₀）: VLM = SigLIP + PaliGemma。
Bi-LAT 等のプロンプト符号化でも CLIP/SigLIP 系が固定長ベクトル化に利用される（vla-architecture）。

テンソル形状（SmolVLA 実測）

SmolVLA の内部解析で観測された SigLIP の入出力:

段階	形状	説明
入力 `pixel_values`	`[1, 3, 384, 384]`	384×384 にリサイズ・正規化
出力 `image_features`	`[1, 729, 1152]`	27×27 = 729 パッチ × SigLIP 隠れ次元 1152
Multi-Modal Projector 後	`[1, 729, 1536]`	VLM（SmolVLM）の隠れ次元へ投影

凍結問題（位置汎化との関係）

SmolVLA の fine-tune では freeze_vision_encoder: True で SigLIP は凍結される。smolvla-position-generalization の検証では、物体位置を 5cm 動かしても VLM hidden states が cosine 1.0000 と完全同一になり、SigLIP が位置差を十分エンコードできていない（あるいはその情報が下流に伝わらない）ことが位置汎化失敗の根因と示唆された。改善には Vision Encoder ごとの fine-tune、より高解像度入力、位置情報に敏感なエンコーダの検討が挙がる。

Quartz 5

Explorer

SigLIP（Vision Encoder）

SigLIP（Vision Encoder）

VLM/VLA での役割

テンソル形状（SmolVLA 実測）

凍結問題（位置汎化との関係）

関連

Graph View

Table of Contents

Backlinks