SigLIP(Vision Encoder)
Sigmoid Loss for Language-Image Pre-training。CLIP 系の画像–言語対照学習を、softmax ベースの InfoNCE ではなく ペアごとの sigmoid 損失に置き換えた事前学習で得られる Vision Encoder(ViT 系)。バッチ全体の正規化が不要なため大バッチ・分散学習に向き、画像特徴の抽出器として多くの VLM / vla のフロントエンドに採用される。
VLM/VLA での役割
画像をパッチ列の特徴ベクトルに変換する「目」の部分。下流の VLM(言語デコーダ)にマルチモーダル投影を介して渡される。
- smolvla / smolvlm: SmolVLM-2 の Vision Encoder として SigLIP を使用。
- pi0(π₀): VLM = SigLIP + PaliGemma。
- Bi-LAT 等のプロンプト符号化でも CLIP/SigLIP 系が固定長ベクトル化に利用される(vla-architecture)。
テンソル形状(SmolVLA 実測)
SmolVLA の内部解析で観測された SigLIP の入出力:
| 段階 | 形状 | 説明 |
|---|---|---|
入力 pixel_values | [1, 3, 384, 384] | 384×384 にリサイズ・正規化 |
出力 image_features | [1, 729, 1152] | 27×27 = 729 パッチ × SigLIP 隠れ次元 1152 |
| Multi-Modal Projector 後 | [1, 729, 1536] | VLM(SmolVLM)の隠れ次元へ投影 |
凍結問題(位置汎化との関係)
SmolVLA の fine-tune では freeze_vision_encoder: True で SigLIP は凍結される。smolvla-position-generalization の検証では、物体位置を 5cm 動かしても VLM hidden states が cosine 1.0000 と完全同一になり、SigLIP が位置差を十分エンコードできていない(あるいはその情報が下流に伝わらない)ことが位置汎化失敗の根因と示唆された。改善には Vision Encoder ごとの fine-tune、より高解像度入力、位置情報に敏感なエンコーダの検討が挙がる。
関連
- smolvlm / smolvla / pi0
- vla-architecture / vla
- _moc-ml-robotics(ml-robotics クラスタの atomic ノート群)