VLAの言語接地について

— 力情報と言語の統合 —

言語接地

データ収集とSim2Real

VLMの物理的知識の活性化

— Tactile-VLA[8] —

VLMの物理的知識は触覚接続で活性化できる

softlyhard の2語のみ学習→3つの汎化を実証

① 語彙汎化:

力 (N) 備考
softly(学習済) 0.51
hard(学習済) 2.57
gently 0.75 未学習語
firmly 1.98 未学習語
harder 2.94 外挿(hardを超過)

VLMの物理的知識の活性化(続)

— タスク間転移と常識推論 —

② タスク間転移: 充電器挿入(力指示なしで訓練)にゼロショット転移

③ 常識知識による把持力推論:

カテゴリ π₀-base Tactile-VLA
Solid & Heavy 68% 95%
Solid & Light 50% 90%
Fragile & Light 13% 90%

→ 壊れやすい物体で 13%→90% に大幅改善 VLMの常識知識が触覚で活性化

言語指示による力加減制御

— Bi-LAT[3] —

ACT + バイラテラル制御 + SigLIP言語Enc → 言語指示で力加減を変化

  • 5種類のエンコーダ比較→SigLIPが最良
タスク 指示 結果
cup-stacking(単腕) softly/strongly 全成功、力に変化
sponge-twisting(双腕) softly/strongly 指示通りに力変化

データ: わずか3ep×10倍拡張で学習 softly→低トルク / strongly→高トルク

Chain-of-Thought 力推論

— Tactile-VLA-CoT[8] —

失敗時にCoTで触覚FBを推論→原因分析→力を自動調整して再試行

黒板拭き: 初期3.5N→不十分→6.7Nへ自動増加 (訓練データ5Nを34%超過 = 外挿能力)

モデル Whiteboard (ID) Blackboard (OOD)
π₀-base 40% 0%
Tactile-VLA 80% 15%
Tactile-VLA-CoT 75% 80%

→ 未知表面(OOD)で 0%→80% に改善

バイラテラル制御によるデータ収集

— Bi-ACT[2] / Bi-LAT[3] —

操作者がフォロワーロボットの把持感触を感じながら操作 → デモデータの質が向上

利点:

  • 力情報を含む高品質マルチモーダルデモが収集可能
  • 力加減の概念を動作に結びつけるデータ

データ収集の難しさ

  • バイラテラル制御システムの構築が複雑
  • 力情報付きデータは従来VLA以上の量が必要な場合あり

必要データ量の差:

  • Bi-LAT: 3ep×10倍拡張で学習可能(単一タスク)
  • ForceVLA: 5タスク・244ep・140Kステップ必要

Sim2Realギャップ

  • 接触力のシミュレーションは視覚より困難
  • 学習モデルが実世界で期待どおりに動かない場合あり

VTLA[9]の結果:

  • TLA(触覚のみ): 成功率 30-40%
  • VTLA(視覚+触覚): 95%以上 → 融合で軽減するが、完全解決には至っていない

シミュレーションによる収集

— VTLA[9] —

NVIDIA Isaac Gym + 自作視覚触覚シミュレータ

項目 内容
データ数 28,000ペア
ペグ形状 四角・三角・丸・五角・六角
クリアランス 0.6〜2.0 mm
  • Sim2Realで95%以上の成功率(ペグ挿入)
  • 暗環境でもペグ差し込み可能

TLA単体では成功率30-40%に低下 → 視覚+触覚の融合で克服、未知形状でも**100%**達成

Force-Motion Capture System

— ForceMimic[10] —

ATI Mini45 6軸F/Tセンサを手首に装着 → 人間の動作と力を同時記録

従来MoCap: 位置情報のみ FMCS: 力加減も直接キャプチャ

データ例(各約50ep):

  • ズッキーニの皮むき(>10cm連続)
  • テーブル拭き取り(押し付け力)
  • ペグ挿入(接触力FB)

参考文献

[1] ForceVLA: Unlocking Force-Aware Robotic Learning via Multi-Modal Visual-Language-Action Model (2024)

[2] Bi-ACT: Bilateral Teleoperation-Augmented Action Chunking with Transformers (2024)

[3] Bi-LAT: Bilateral Telemanipulation with Language-Augmented Transformers (2024)

[4] OmniVTLA: Omni-Embodiment Vision-Touch-Language-Action (2024)

[7] TA-VLA: Torque-Augmented Visual-Language-Action Model (2024)

[8] Tactile-VLA: Tactile Visual-Language-Action Model (2024)

[9] VTLA: Vision-Tactile-Language-Action Model (2024)

[10] ForceMimic: Force-Aware Imitation Learning (2024)