操作のための力・触覚センシング
VTLA モデルが力情報を取得する3方式。時間解像度・空間解像度・コスト・追加 HW の要否がトレードオフになる。
① 関節トルク(内部推定)
モータ電流や外乱オブザーバからトルクを推定。追加 HW 不要。
- TA-VLA: τ = k_t · i(k_t トルク定数、i 電流)
- LAT: 外乱オブザーバで実トルク推定
- 利点: 低コスト・外部センサ不要で導入容易
- 欠点: ノイズ・熱ドリフト(長時間で精度低下)/ 接触位置は得られない
② 触覚画像(外部・2D 画像化)
接触面の変形をゲル越しに画像として取得。GelSight / GelStereo など。
- OmniVTLA(GelSight)、VTLA insertion(GelStereo×2)、VLA-Touch(GelSight Mini)
- 利点: 高空間解像度で接触状態を詳細に把握
- 欠点: 低時間解像度(20–30 Hz)/ コスト・摩耗・形状制約
③ トルク/F-T センサ(外部・値取得)
力・トルクの数値を専用センサで直接取得。
- ForceVLA(Flexiv 内蔵推定値)、ForceMimic(外付6軸実測、1 kHz)、Tactile-VLA(法線+せん断力)、OmniVTLA(Paxini)
- 利点: 高時間解像度(〜1 kHz)・6DoF
- 欠点: 専用センサが必要 / 高コスト / 内蔵推定値は精度に限界
なぜ力が必要か(視覚のみの限界)
視覚だけでは物体の硬さ・力をランダム推測と同等(各50%)でしか判別できず、接触リッチタスクの成功率が極端に低い(充電器挿入 0%、柔物体把持 13%)。触覚を加えると硬さ75%・力90%まで判別でき、把持成功率 75.0%→96.9%、遮蔽下プラグ挿入 60%→90% 等に改善する。
残された課題
力センサは 100 Hz–1 kHz でサンプリングできるが、モデル推論が 8–20 Hz と低速で高周波情報を活かしきれない(full-streaming-inference が狙う領域)。インターネット動画に力データが存在せずスケーラビリティを制約。