操作のための力・触覚センシング

VTLA モデルが力情報を取得する3方式。時間解像度・空間解像度・コスト・追加 HW の要否がトレードオフになる。

① 関節トルク(内部推定)

モータ電流や外乱オブザーバからトルクを推定。追加 HW 不要。

  • TA-VLA: τ = k_t · i(k_t トルク定数、i 電流)
  • LAT: 外乱オブザーバで実トルク推定
  • 利点: 低コスト・外部センサ不要で導入容易
  • 欠点: ノイズ・熱ドリフト(長時間で精度低下)/ 接触位置は得られない

② 触覚画像(外部・2D 画像化)

接触面の変形をゲル越しに画像として取得。GelSight / GelStereo など。

  • OmniVTLA(GelSight)、VTLA insertion(GelStereo×2)、VLA-Touch(GelSight Mini)
  • 利点: 高空間解像度で接触状態を詳細に把握
  • 欠点: 低時間解像度(20–30 Hz)/ コスト・摩耗・形状制約

③ トルク/F-T センサ(外部・値取得)

力・トルクの数値を専用センサで直接取得。

  • ForceVLA(Flexiv 内蔵推定値)、ForceMimic(外付6軸実測、1 kHz)、Tactile-VLA(法線+せん断力)、OmniVTLA(Paxini)
  • 利点: 高時間解像度(〜1 kHz)・6DoF
  • 欠点: 専用センサが必要 / 高コスト / 内蔵推定値は精度に限界

なぜ力が必要か(視覚のみの限界)

視覚だけでは物体の硬さ・力をランダム推測と同等(各50%)でしか判別できず、接触リッチタスクの成功率が極端に低い(充電器挿入 0%、柔物体把持 13%)。触覚を加えると硬さ75%・力90%まで判別でき、把持成功率 75.0%→96.9%、遮蔽下プラグ挿入 60%→90% 等に改善する。

残された課題

力センサは 100 Hz–1 kHz でサンプリングできるが、モデル推論が 8–20 Hz と低速で高周波情報を活かしきれない(full-streaming-inference が狙う領域)。インターネット動画に力データが存在せずスケーラビリティを制約。

関連: vla-force-injection-methods / bilateral-control / vtla