VLA-Touch
“VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback”(J. Bi ら, 2025)。VTLA サーベイの中で唯一、VLA 本体を改変せず触覚を統合する変種。
- ベース: RDT-1B。
- 力センシング: 触覚画像(GelSight Mini)。
- 入力方法: ① VLM 側だが Encoder 無 — 触覚を言語化して与え、VLA を未改変のまま使う(dual-level: 高レベルの言語的フィードバックと低レベルの触覚調整)。
- 出力 / 制御: 位置 → 位置制御。
- カメラ: RGB×2。
- 評価: カップ操作(水の有無判定 + 配置)/ 拭き取り(スポンジ選択 + 拭き)/ 皮むき(熟度判定 + 皮むき)。触覚で硬さ 75%・力 90% を判別。
モデルを再学習せず触覚を活かせる点が特徴で、注入方法の分類では「触覚の言語化」という ① の特殊形。
関連: tactile-sensing-for-manipulation / omnivtla / tactile-vla