VLA-Touch

“VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback”(J. Bi ら, 2025)。VTLA サーベイの中で唯一、VLA 本体を改変せず触覚を統合する変種。

  • ベース: RDT-1B。
  • 力センシング: 触覚画像(GelSight Mini)。
  • 入力方法: ① VLM 側だが Encoder 無 — 触覚を言語化して与え、VLA を未改変のまま使う(dual-level: 高レベルの言語的フィードバックと低レベルの触覚調整)。
  • 出力 / 制御: 位置 → 位置制御。
  • カメラ: RGB×2。
  • 評価: カップ操作(水の有無判定 + 配置)/ 拭き取り(スポンジ選択 + 拭き)/ 皮むき(熟度判定 + 皮むき)。触覚で硬さ 75%・力 90% を判別。

モデルを再学習せず触覚を活かせる点が特徴で、注入方法の分類では「触覚の言語化」という ① の特殊形。

関連: tactile-sensing-for-manipulation / omnivtla / tactile-vla