Abstract
課題: VLMのロボットマニピュレーションへの応用は、特にピック&プレースを超える接触リッチタスクで未開拓
提案: VTLA - 視覚・触覚入力をクロスモーダル言語グラウンディングで統合し、接触集約的シナリオでロバストなポリシー生成を可能にするフレームワーク
貢献:
| 貢献 | 内容 |
|---|---|
| VTLAデータセット | シミュレーション環境で構築した視覚-触覚-アクション-指示ペア(28,000サンプル) |
| VGTE | Vision-Guided Temporally Enhanced Tokens - VLMの時間理解の制限に対処 |
| DPO導入 | 分類ベースNTP損失と連続ロボットタスク間のギャップを埋める回帰的監督 |
結果:
- 未知のペグ形状で90%以上の成功率
- Diffusion Policy、TLA、VLAを上回る性能
- 実世界Sim2Real転移で95%以上の成功率
1. Introduction
背景:
- 接触集約的タスク(精密挿入等)では視覚に加え触覚フィードバックが不可欠
- 既存の視覚-触覚学習は特定データセット上の専用モデルに依存し、汎化に課題
- VLAモデルは触覚フィードバックが欠如し、単純なタスクに制限
既存手法の限界:
- TLA(Tactile-Language-Action)モデル: 触覚エンコーディングに改善余地、視覚モダリティ欠如で性能に上限
提案: VTLA
- 視覚・触覚・言語情報を統合した接触リッチマニピュレーション向けフレームワーク
- VGTEによる時間的強化と視覚優先設計
- DPOによる回帰的監督で連続制御タスクに対応
2. Related Works
Vision-Tactile Learning
- 深層学習による融合機構: 早期特徴融合、アテンションメカニズム
- タスク: スリップ検出、グラスプ結果予測、液体注ぎ等
- 強化学習によるペグイン穴組立も提案されている
- 課題: 固定データセット上の専用モデルに依存、ドメイン外汎化が限定的
VLM for Robot Manipulation
| モデル | 特徴 |
|---|---|
| RT-2 | アクションをトークンシーケンスとして定式化、VLAパラダイムを確立 |
| RoboFlamingo, OpenVLA | 同様の手法を採用 |
| GR-1, GR-2 | 2段階学習(ウェブスケールビデオ事前学習→マニピュレーション適応) |
| RDT-1B, PI | 拡散目的を統合しアクション生成を強化 |
- 課題: 視覚モダリティに焦点、ピック&プレース等の単純タスクに制限
Tactile-Language Model in Robotics
- 材質理解に焦点(Touch100k等)
- TLA: 触覚モダリティと言語を連携しロボットアクションを生成
- 課題: 触覚データはロボットマニピュレーションでまだ十分活用されていない
3. Vision-Tactile-Language-Action Model
3.1. Data Collection
環境: NVIDIA Isaac Gym + 自作視覚触覚シミュレータ
タスク: ペグイン穴組立
- グリッパーがペグを把持
- 対応する穴の上に位置決め
- x軸、y軸、z軸回転で3DOFのランダムミスアライメントを導入
- 降下して挿入試行(衝突時は後退して再試行、最大15回)
データセット:
| 項目 | 詳細 |
|---|---|
| ペグ形状 | 5種類 |
| クリアランス | 0.6〜2.0 mm |
| サンプル数 | 28,000 |
| 内容 | 左右触覚画像シーケンス、視覚画像、アクションラベル |
ドメインランダマイゼーション: シミュレーション環境、タスク構成、視覚・触覚観測のパラメータを変化させ、ゼロショットSim2Real転移を強化
3.2. Instruction Tuning with Vision-Guided Temporally Enhanced Tokens
VGTE (Vision-Guided Temporally Enhanced Tokens):
| 設計要素 | 説明 |
|---|---|
| 視覚ガイダンス | 触覚入力の後に視覚入力を配置し、アクション予測に近づける(言語モデルの近接バイアスに対応) |
| 時間的強化 | 触覚観測を画像表現にエンコードし、ViTで時間認識触覚トークンを抽出 |
ファインチューニング:
- Next Token Prediction (NTP) タスクとして定式化
- 視覚エンコーダとモダリティアダプタは凍結、言語モデルのみチューニング
- ベースモデル: Qwen2-VL 7B
- 学習率: 5×10⁻⁴、バッチサイズ: 64、10エポック
3.3. Preference Learning
課題: ロボット制御は連続制御信号を予測する回帰問題だが、NTP損失は分類指向
Direct Preference Optimization (DPO):
- ファインチューニング済みVTLAモデルで同じ訓練サンプルから多様なアクション予測を生成
- 真値との近さに基づき、chosenとrejectedにラベル付けしPreferenceデータセットを作成
- DPOで最適化(回帰的監督をシミュレート)
- 学習率: 5×10⁻⁶、バッチサイズ: 32、3エポック
4. Experiments
4.1. Experiment Setup
比較手法:
| 手法 | 説明 |
|---|---|
| Diffusion Policy (DP) | 視覚・触覚観測で挿入ポリシーを学習 |
| VLA | リストカメラ画像のみで学習 |
| TLA | 触覚画像シーケンスのみで学習 |
| VTLA (w/ DPO-1k/2k) | Preferenceデータ1,000/2,400点で学習 |
評価指標:
| 指標 | 説明 |
|---|---|
| GCR (Goal Convergence Rate) | x, y, rz方向すべて正解のアクション割合 |
| L1距離 | 出力アクションとラベル間の距離 |
| 成功率 | シミュレーション/実世界でのタスク成功率 |
| 平均試行ステップ | 成功までの平均ステップ数 |
実世界ハードウェア:
- ロボット: UR3 (6-DoF) + Robotiq 2F-85グリッパー
- カメラ: Intel RealSense D405(リスト装着)
- 触覚センサ: GelStereo 2.0 × 2(指先装着、20 FPS)
4.2. Comparison with Baseline Methods
データセット評価 (ID: 6kサンプル、OOD: 4kサンプル):
| 手法 | GCR-ID | GCR-OOD |
|---|---|---|
| DP | 7.8% | 8.5% |
| VLA | 46.1% | 29.5% |
| TLA | 15.3% | 14.4% |
| VTLA | 47.3% | 31.2% |
シミュレーション挿入タスク (0.6mmクリアランス):
| 手法 | 四角(ID) | 五角形(OOD) | 円形(OOD) |
|---|---|---|---|
| DP | 22% | 26% | 10% |
| VLA | 80% | 82% | 94% |
| TLA | 80% | 80% | 92% |
| VTLA | 90% | 92% | 92% |
知見:
- LLMベースモデルはDPを大幅に上回る(0.6mmクリアランスで80%+ vs 22%)
- VTLAはVLAより高い成功率(触覚トークンの有効性)
- 円形ペグは幾何的等方性により全モデルで同等性能
4.3. Ablation Study
DPOの効果:
| 手法 | GCR-ID | GCR-OOD | L1 x(OOD) | L1 y(OOD) |
|---|---|---|---|---|
| VTLA (w/o DPO) | 47.5% | 27.0% | 0.349 | 0.367 |
| VTLA (w/ DPO-1k) | 47.5% | 31.4% | 0.305 | 0.324 |
| VTLA (w/ DPO-2k) | 47.3% | 31.2% | 0.305 | 0.324 |
- OODデータでGCRが16%向上、L1誤差が約10%削減
- Preferenceデータサイズ増加より多様性が重要
4.4. Real-world Robotic Insertion
クリアランス別成功率:
| クリアランス | 成功率 | 平均ステップ |
|---|---|---|
| 1.6 mm | 100% | 1.60 |
| 1.0 mm | 100% | 1.95 |
| 0.6 mm | 95% | 4.31 |
形状別成功率 (0.6mmクリアランス):
| 形状 | VTLA成功率 | VLA成功率 | TLA成功率 |
|---|---|---|---|
| 四角(ID) | 95% | - | - |
| 三角(ID) | 95% | 90% | 30% |
| 六角(OOD) | 95% | - | - |
| 五角(OOD) | 100% | 100% | 40% |
| 円形(OOD) | 100% | - | - |
知見:
- TLAは触覚のみでSim2Realギャップが大きい(30-40%、シミュレーションの約半分)
- VTLAは視覚・触覚融合によりOOD形状でも100%達成
- VTLAはVLAより効率的な挿入を達成(五角形で1.85ステップ vs 2.3ステップ)
5. Conclusion
成果:
- 接触リッチ挿入タスク向けVTLAモデルを提案
- クロスモーダルファインチューニングで言語を通じた汎化的視覚-触覚スキルを学習
- ペグイン穴タスクで90%以上の成功率、TLA/VLAを上回る
- シミュレーションデータのみで学習し、実世界で95%の成功率
制限と今後の課題:
| 課題 | 説明 |
|---|---|
| 触覚-言語アライメント | 汎用視覚エンコーダを触覚入力に使用しており、触覚固有の特徴が失われる可能性 |
| 視覚-触覚融合 | 深い統合はLLMでは未探索、今後の研究課題 |
Appendix A: Domain Randomization on Simulated Dataset
| カテゴリ | パラメータ | 分布 |
|---|---|---|
| 物理 | ヤング率 | U(1.0e5, 5.0e5) Pa |
| 物理 | ポアソン比 | U(0.3, 0.48) |
| 物理 | 摩擦係数 | U(0.2, 0.7) |
| タスク | ペグオフセットx, z | U(-1.0, 1.0) mm |
| タスク | 接触深さ | U(0.6, 0.9) mm |
| 視覚画像 | 光源方向 | 3D空間の任意方向 |
| 視覚画像 | スケール、並進、回転、せん断変換 | 各種範囲 |
Appendix B: Real-World Robot Setup for Insertion Task
- UR3 (6-DoF) + Robotiq 2F-85グリッパー
- Intel RealSense D405(リスト装着)
- GelStereo 2.0 × 2(指先、20 FPS)
- ミスアライメント: x, y軸で±2.5mm、z軸回転で±5°
Appendix C: VTLA vs. VLA under Poor Lighting Condition
- 暗い照明条件下でVTLAは挿入タスクに成功
- VLAは視覚画像の品質低下により穴位置の認識が困難でタスク完了に苦戦
- 触覚観測の活用効果を実証