VLAの言語接地について
— 力情報と言語の統合 —
言語接地
データ収集とSim2Real
VLMの物理的知識の活性化
— Tactile-VLA[8] —
VLMの物理的知識は触覚接続で活性化できる
softly と hard の2語のみ学習→3つの汎化を実証
① 語彙汎化:
| 語 | 力 (N) | 備考 |
|---|---|---|
| softly(学習済) | 0.51 | — |
| hard(学習済) | 2.57 | — |
| gently | 0.75 | 未学習語 |
| firmly | 1.98 | 未学習語 |
| harder | 2.94 | 外挿(hardを超過) |
VLMの物理的知識の活性化(続)
— タスク間転移と常識推論 —
② タスク間転移: 充電器挿入(力指示なしで訓練)にゼロショット転移
③ 常識知識による把持力推論:
| カテゴリ | π₀-base | Tactile-VLA |
|---|---|---|
| Solid & Heavy | 68% | 95% |
| Solid & Light | 50% | 90% |
| Fragile & Light | 13% | 90% |
→ 壊れやすい物体で 13%→90% に大幅改善 VLMの常識知識が触覚で活性化
言語指示による力加減制御
— Bi-LAT[3] —
ACT + バイラテラル制御 + SigLIP言語Enc → 言語指示で力加減を変化
- 5種類のエンコーダ比較→SigLIPが最良
| タスク | 指示 | 結果 |
|---|---|---|
| cup-stacking(単腕) | softly/strongly | 全成功、力に変化 |
| sponge-twisting(双腕) | softly/strongly | 指示通りに力変化 |
データ: わずか3ep×10倍拡張で学習 softly→低トルク / strongly→高トルク
Chain-of-Thought 力推論
— Tactile-VLA-CoT[8] —
失敗時にCoTで触覚FBを推論→原因分析→力を自動調整して再試行
黒板拭き: 初期3.5N→不十分→6.7Nへ自動増加 (訓練データ5Nを34%超過 = 外挿能力)
| モデル | Whiteboard (ID) | Blackboard (OOD) |
|---|---|---|
| π₀-base | 40% | 0% |
| Tactile-VLA | 80% | 15% |
| Tactile-VLA-CoT | 75% | 80% |
→ 未知表面(OOD)で 0%→80% に改善
バイラテラル制御によるデータ収集
— Bi-ACT[2] / Bi-LAT[3] —
操作者がフォロワーロボットの把持感触を感じながら操作 → デモデータの質が向上
利点:
- 力情報を含む高品質マルチモーダルデモが収集可能
- 力加減の概念を動作に結びつけるデータ
データ収集の難しさ
- バイラテラル制御システムの構築が複雑
- 力情報付きデータは従来VLA以上の量が必要な場合あり
必要データ量の差:
- Bi-LAT: 3ep×10倍拡張で学習可能(単一タスク)
- ForceVLA: 5タスク・244ep・140Kステップ必要
Sim2Realギャップ
- 接触力のシミュレーションは視覚より困難
- 学習モデルが実世界で期待どおりに動かない場合あり
VTLA[9]の結果:
- TLA(触覚のみ): 成功率 30-40%
- VTLA(視覚+触覚): 95%以上 → 融合で軽減するが、完全解決には至っていない
シミュレーションによる収集
— VTLA[9] —
NVIDIA Isaac Gym + 自作視覚触覚シミュレータ
| 項目 | 内容 |
|---|---|
| データ数 | 28,000ペア |
| ペグ形状 | 四角・三角・丸・五角・六角 |
| クリアランス | 0.6〜2.0 mm |
- Sim2Realで95%以上の成功率(ペグ挿入)
- 暗環境でもペグ差し込み可能
TLA単体では成功率30-40%に低下 → 視覚+触覚の融合で克服、未知形状でも**100%**達成
Force-Motion Capture System
— ForceMimic[10] —
ATI Mini45 6軸F/Tセンサを手首に装着 → 人間の動作と力を同時記録
従来MoCap: 位置情報のみ FMCS: 力加減も直接キャプチャ
データ例(各約50ep):
- ズッキーニの皮むき(>10cm連続)
- テーブル拭き取り(押し付け力)
- ペグ挿入(接触力FB)
参考文献
[1] ForceVLA: Unlocking Force-Aware Robotic Learning via Multi-Modal Visual-Language-Action Model (2024)
[2] Bi-ACT: Bilateral Teleoperation-Augmented Action Chunking with Transformers (2024)
[3] Bi-LAT: Bilateral Telemanipulation with Language-Augmented Transformers (2024)
[4] OmniVTLA: Omni-Embodiment Vision-Touch-Language-Action (2024)
[7] TA-VLA: Torque-Augmented Visual-Language-Action Model (2024)
[8] Tactile-VLA: Tactile Visual-Language-Action Model (2024)
[9] VTLA: Vision-Tactile-Language-Action Model (2024)
[10] ForceMimic: Force-Aware Imitation Learning (2024)