VLA-Touch

ベース: RDT-1B。
力センシング: 触覚画像（<a href="../entities/gelsight" class="internal internal-link alias" data-slug="entities/gelsight">GelSight Mini ）。
入力方法: ① VLM 側だが Encoder 無 — 触覚を 言語化 して与え、VLA を未改変のまま使う（dual-level: 高レベルの言語的フィードバックと低レベルの触覚調整）。
出力 / 制御: 位置 → 位置制御。
カメラ: RGB×2。
評価: カップ操作（水の有無判定 + 配置）/ 拭き取り（スポンジ選択 + 拭き）/ 皮むき（熟度判定 + 皮むき）。触覚で硬さ 75%・力 90% を判別。

“VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback”（J. Bi ら, 2025）。VTLA サーベイの中で唯一、VLA 本体を改変せず触覚を統合する変種。