Tactile-VLA

“Tactile-VLA: Unlocking Vision-Language-Action Model’s Physical Knowledge for Tactile Generalization”（J. Huang ら, 2025）。π₀ ベースの VTLA。VLM が事前学習で持つ物理知識を触覚に汎化させることを狙う。

力センシング: トルクセンサ（法線力 + せん断力）。
入力方法: ① VLM 側（Encoder 有）。
出力 / 制御: 位置 + 目標力 F_target を出力。②-a 力補正付き制御 — 力誤差 ΔF = F_tgt − F_meas が閾値 τ_th を超えたときのみ位置を補正（P_hyb = P_tgt + K·ΔF）。
カメラ: RGB×1。
評価: USB・充電器挿抜 / 卓上物体把持（12種）/ ボード拭き（未学習の黒板拭きへの汎化）。

言語による力加減の汎化

副詞で力加減を指示でき、「softly」→0.5 N / 「hard」→2.57 N を学習。未学習副詞「harder」→2.94 N へも汎化した。位置制御のみの VLA では副詞を与えても力加減ができなかった点を解決する。

Quartz 5

Explorer

Tactile-VLA

Tactile-VLA

言語による力加減の汎化

Graph View

Table of Contents

Backlinks