Tactile-VLA

“Tactile-VLA: Unlocking Vision-Language-Action Model’s Physical Knowledge for Tactile Generalization”(J. Huang ら, 2025)。π₀ ベースの VTLA。VLM が事前学習で持つ物理知識を触覚に汎化させることを狙う。

  • 力センシング: トルクセンサ(法線力 + せん断力)。
  • 入力方法: ① VLM 側(Encoder 有)。
  • 出力 / 制御: 位置 + 目標力 F_target を出力。②-a 力補正付き制御 — 力誤差 ΔF = F_tgt − F_meas が閾値 τ_th を超えたときのみ位置を補正(P_hyb = P_tgt + K·ΔF)。
  • カメラ: RGB×1。
  • 評価: USB・充電器挿抜 / 卓上物体把持(12種)/ ボード拭き(未学習の黒板拭きへの汎化)。

言語による力加減の汎化

副詞で力加減を指示でき、「softly」→0.5 N / 「hard」→2.57 N を学習。未学習副詞「harder」→2.94 N へも汎化した。位置制御のみの VLA では副詞を与えても力加減ができなかった点を解決する。

関連: vla-force-injection-methods / tactile-sensing-for-manipulation / forcevla