OmniVTLA

“OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing”(Z. Cheng ら, 2025)。π₀ ベースの VTLA モデル。

  • 力センシング: 触覚画像(GelSight)+ トルクセンサ(Paxini)の併用。
  • 入力方法: ① VLM 側(Encoder 有)。触覚を意味的に整合(semantic-aligned)させてトークン化し VLM に入力。
  • 出力 / 制御: 位置出力 → 位置制御。
  • カメラ: RGB×2。
  • 評価: ピック&プレース(グリッパー: 缶・ボトル等 / 多指ハンド: ボトル・牛乳パック)。

力情報の注入方法では VLM 側注入の代表例。触覚入力により把持成功率と滑らかさが向上(75.0%→96.9%、完了時間 24% 削減)。

関連: tactile-sensing-for-manipulation / tactile-vla / vla-touch