操作のための力・触覚センシング

VTLA モデルが力情報を取得する3方式。時間解像度・空間解像度・コスト・追加 HW の要否がトレードオフになる。

① 関節トルク（内部推定）

モータ電流や外乱オブザーバからトルクを推定。追加 HW 不要。

接触面の変形をゲル越しに画像として取得。GelSight / GelStereo など。

力・トルクの数値を専用センサで直接取得。

ForceVLA（Flexiv 内蔵推定値）、ForceMimic（外付6軸実測、1 kHz）、Tactile-VLA（法線+せん断力）、OmniVTLA（Paxini）
利点: 高時間解像度（〜1 kHz）・6DoF
欠点: 専用センサが必要 / 高コスト / 内蔵推定値は精度に限界

視覚だけでは物体の硬さ・力をランダム推測と同等（各50%）でしか判別できず、接触リッチタスクの成功率が極端に低い（充電器挿入 0%、柔物体把持 13%）。触覚を加えると硬さ75%・力90%まで判別でき、把持成功率 75.0%→96.9%、遮蔽下プラグ挿入 60%→90% 等に改善する。

力センサは 100 Hz–1 kHz でサンプリングできるが、モデル推論が 8–20 Hz と低速で高周波情報を活かしきれない（full-streaming-inference が狙う領域）。インターネット動画に力データが存在せずスケーラビリティを制約。