Abstract

課題: VLMのロボットマニピュレーションへの応用は、特にピック&プレースを超える接触リッチタスクで未開拓

提案: VTLA - 視覚・触覚入力をクロスモーダル言語グラウンディングで統合し、接触集約的シナリオでロバストなポリシー生成を可能にするフレームワーク

貢献:

貢献内容
VTLAデータセットシミュレーション環境で構築した視覚-触覚-アクション-指示ペア(28,000サンプル)
VGTEVision-Guided Temporally Enhanced Tokens - VLMの時間理解の制限に対処
DPO導入分類ベースNTP損失と連続ロボットタスク間のギャップを埋める回帰的監督

結果:

  • 未知のペグ形状で90%以上の成功率
  • Diffusion Policy、TLA、VLAを上回る性能
  • 実世界Sim2Real転移で95%以上の成功率

1. Introduction

背景:

  • 接触集約的タスク(精密挿入等)では視覚に加え触覚フィードバックが不可欠
  • 既存の視覚-触覚学習は特定データセット上の専用モデルに依存し、汎化に課題
  • VLAモデルは触覚フィードバックが欠如し、単純なタスクに制限

既存手法の限界:

  • TLA(Tactile-Language-Action)モデル: 触覚エンコーディングに改善余地、視覚モダリティ欠如で性能に上限

提案: VTLA

  • 視覚・触覚・言語情報を統合した接触リッチマニピュレーション向けフレームワーク
  • VGTEによる時間的強化と視覚優先設計
  • DPOによる回帰的監督で連続制御タスクに対応

Vision-Tactile Learning

  • 深層学習による融合機構: 早期特徴融合、アテンションメカニズム
  • タスク: スリップ検出、グラスプ結果予測、液体注ぎ等
  • 強化学習によるペグイン穴組立も提案されている
  • 課題: 固定データセット上の専用モデルに依存、ドメイン外汎化が限定的

VLM for Robot Manipulation

モデル特徴
RT-2アクションをトークンシーケンスとして定式化、VLAパラダイムを確立
RoboFlamingo, OpenVLA同様の手法を採用
GR-1, GR-22段階学習(ウェブスケールビデオ事前学習→マニピュレーション適応)
RDT-1B, PI拡散目的を統合しアクション生成を強化
  • 課題: 視覚モダリティに焦点、ピック&プレース等の単純タスクに制限

Tactile-Language Model in Robotics

  • 材質理解に焦点(Touch100k等)
  • TLA: 触覚モダリティと言語を連携しロボットアクションを生成
  • 課題: 触覚データはロボットマニピュレーションでまだ十分活用されていない

3. Vision-Tactile-Language-Action Model

3.1. Data Collection

環境: NVIDIA Isaac Gym + 自作視覚触覚シミュレータ

タスク: ペグイン穴組立

  1. グリッパーがペグを把持
  2. 対応する穴の上に位置決め
  3. x軸、y軸、z軸回転で3DOFのランダムミスアライメントを導入
  4. 降下して挿入試行(衝突時は後退して再試行、最大15回)

データセット:

項目詳細
ペグ形状5種類
クリアランス0.6〜2.0 mm
サンプル数28,000
内容左右触覚画像シーケンス、視覚画像、アクションラベル

ドメインランダマイゼーション: シミュレーション環境、タスク構成、視覚・触覚観測のパラメータを変化させ、ゼロショットSim2Real転移を強化

3.2. Instruction Tuning with Vision-Guided Temporally Enhanced Tokens

VGTE (Vision-Guided Temporally Enhanced Tokens):

設計要素説明
視覚ガイダンス触覚入力の後に視覚入力を配置し、アクション予測に近づける(言語モデルの近接バイアスに対応)
時間的強化触覚観測を画像表現にエンコードし、ViTで時間認識触覚トークンを抽出

ファインチューニング:

  • Next Token Prediction (NTP) タスクとして定式化
  • 視覚エンコーダとモダリティアダプタは凍結、言語モデルのみチューニング
  • ベースモデル: Qwen2-VL 7B
  • 学習率: 5×10⁻⁴、バッチサイズ: 64、10エポック

3.3. Preference Learning

課題: ロボット制御は連続制御信号を予測する回帰問題だが、NTP損失は分類指向

Direct Preference Optimization (DPO):

  1. ファインチューニング済みVTLAモデルで同じ訓練サンプルから多様なアクション予測を生成
  2. 真値との近さに基づき、chosenとrejectedにラベル付けしPreferenceデータセットを作成
  3. DPOで最適化(回帰的監督をシミュレート)
  • 学習率: 5×10⁻⁶、バッチサイズ: 32、3エポック

4. Experiments

4.1. Experiment Setup

比較手法:

手法説明
Diffusion Policy (DP)視覚・触覚観測で挿入ポリシーを学習
VLAリストカメラ画像のみで学習
TLA触覚画像シーケンスのみで学習
VTLA (w/ DPO-1k/2k)Preferenceデータ1,000/2,400点で学習

評価指標:

指標説明
GCR (Goal Convergence Rate)x, y, rz方向すべて正解のアクション割合
L1距離出力アクションとラベル間の距離
成功率シミュレーション/実世界でのタスク成功率
平均試行ステップ成功までの平均ステップ数

実世界ハードウェア:

  • ロボット: UR3 (6-DoF) + Robotiq 2F-85グリッパー
  • カメラ: Intel RealSense D405(リスト装着)
  • 触覚センサ: GelStereo 2.0 × 2(指先装着、20 FPS)

4.2. Comparison with Baseline Methods

データセット評価 (ID: 6kサンプル、OOD: 4kサンプル):

手法GCR-IDGCR-OOD
DP7.8%8.5%
VLA46.1%29.5%
TLA15.3%14.4%
VTLA47.3%31.2%

シミュレーション挿入タスク (0.6mmクリアランス):

手法四角(ID)五角形(OOD)円形(OOD)
DP22%26%10%
VLA80%82%94%
TLA80%80%92%
VTLA90%92%92%

知見:

  • LLMベースモデルはDPを大幅に上回る(0.6mmクリアランスで80%+ vs 22%)
  • VTLAはVLAより高い成功率(触覚トークンの有効性)
  • 円形ペグは幾何的等方性により全モデルで同等性能

4.3. Ablation Study

DPOの効果:

手法GCR-IDGCR-OODL1 x(OOD)L1 y(OOD)
VTLA (w/o DPO)47.5%27.0%0.3490.367
VTLA (w/ DPO-1k)47.5%31.4%0.3050.324
VTLA (w/ DPO-2k)47.3%31.2%0.3050.324
  • OODデータでGCRが16%向上、L1誤差が約10%削減
  • Preferenceデータサイズ増加より多様性が重要

4.4. Real-world Robotic Insertion

クリアランス別成功率:

クリアランス成功率平均ステップ
1.6 mm100%1.60
1.0 mm100%1.95
0.6 mm95%4.31

形状別成功率 (0.6mmクリアランス):

形状VTLA成功率VLA成功率TLA成功率
四角(ID)95%--
三角(ID)95%90%30%
六角(OOD)95%--
五角(OOD)100%100%40%
円形(OOD)100%--

知見:

  • TLAは触覚のみでSim2Realギャップが大きい(30-40%、シミュレーションの約半分)
  • VTLAは視覚・触覚融合によりOOD形状でも100%達成
  • VTLAはVLAより効率的な挿入を達成(五角形で1.85ステップ vs 2.3ステップ)

5. Conclusion

成果:

  • 接触リッチ挿入タスク向けVTLAモデルを提案
  • クロスモーダルファインチューニングで言語を通じた汎化的視覚-触覚スキルを学習
  • ペグイン穴タスクで90%以上の成功率、TLA/VLAを上回る
  • シミュレーションデータのみで学習し、実世界で95%の成功率

制限と今後の課題:

課題説明
触覚-言語アライメント汎用視覚エンコーダを触覚入力に使用しており、触覚固有の特徴が失われる可能性
視覚-触覚融合深い統合はLLMでは未探索、今後の研究課題

Appendix A: Domain Randomization on Simulated Dataset

カテゴリパラメータ分布
物理ヤング率U(1.0e5, 5.0e5) Pa
物理ポアソン比U(0.3, 0.48)
物理摩擦係数U(0.2, 0.7)
タスクペグオフセットx, zU(-1.0, 1.0) mm
タスク接触深さU(0.6, 0.9) mm
視覚画像光源方向3D空間の任意方向
視覚画像スケール、並進、回転、せん断変換各種範囲

Appendix B: Real-World Robot Setup for Insertion Task

  • UR3 (6-DoF) + Robotiq 2F-85グリッパー
  • Intel RealSense D405(リスト装着)
  • GelStereo 2.0 × 2(指先、20 FPS)
  • ミスアライメント: x, y軸で±2.5mm、z軸回転で±5°

Appendix C: VTLA vs. VLA under Poor Lighting Condition

  • 暗い照明条件下でVTLAは挿入タスクに成功
  • VLAは視覚画像の品質低下により穴位置の認識が困難でタスク完了に苦戦
  • 触覚観測の活用効果を実証