VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation

Abstract

課題: VLMのロボットマニピュレーションへの応用は、特にピック&プレースを超える接触リッチタスクで未開拓

提案: VTLA - 視覚・触覚入力をクロスモーダル言語グラウンディングで統合し、接触集約的シナリオでロバストなポリシー生成を可能にするフレームワーク

貢献:

貢献	内容
VTLAデータセット	シミュレーション環境で構築した視覚-触覚-アクション-指示ペア（28,000サンプル）
VGTE	Vision-Guided Temporally Enhanced Tokens - VLMの時間理解の制限に対処
DPO導入	分類ベースNTP損失と連続ロボットタスク間のギャップを埋める回帰的監督

結果:

未知のペグ形状で90%以上の成功率
Diffusion Policy、TLA、VLAを上回る性能
実世界Sim2Real転移で95%以上の成功率

1. Introduction

背景:

接触集約的タスク（精密挿入等）では視覚に加え触覚フィードバックが不可欠
既存の視覚-触覚学習は特定データセット上の専用モデルに依存し、汎化に課題
VLAモデルは触覚フィードバックが欠如し、単純なタスクに制限

既存手法の限界:

TLA（Tactile-Language-Action）モデル: 触覚エンコーディングに改善余地、視覚モダリティ欠如で性能に上限

提案: VTLA

視覚・触覚・言語情報を統合した接触リッチマニピュレーション向けフレームワーク
VGTEによる時間的強化と視覚優先設計
DPOによる回帰的監督で連続制御タスクに対応

Vision-Tactile Learning

深層学習による融合機構: 早期特徴融合、アテンションメカニズム
タスク: スリップ検出、グラスプ結果予測、液体注ぎ等
強化学習によるペグイン穴組立も提案されている
課題: 固定データセット上の専用モデルに依存、ドメイン外汎化が限定的

VLM for Robot Manipulation

モデル	特徴
RT-2	アクションをトークンシーケンスとして定式化、VLAパラダイムを確立
RoboFlamingo, OpenVLA	同様の手法を採用
GR-1, GR-2	2段階学習（ウェブスケールビデオ事前学習→マニピュレーション適応）
RDT-1B, PI	拡散目的を統合しアクション生成を強化

課題: 視覚モダリティに焦点、ピック&プレース等の単純タスクに制限

Tactile-Language Model in Robotics

材質理解に焦点（Touch100k等）
TLA: 触覚モダリティと言語を連携しロボットアクションを生成
課題: 触覚データはロボットマニピュレーションでまだ十分活用されていない

3. Vision-Tactile-Language-Action Model

3.1. Data Collection

環境: NVIDIA Isaac Gym + 自作視覚触覚シミュレータ

タスク: ペグイン穴組立

グリッパーがペグを把持
対応する穴の上に位置決め
x軸、y軸、z軸回転で3DOFのランダムミスアライメントを導入
降下して挿入試行（衝突時は後退して再試行、最大15回）

データセット:

項目	詳細
ペグ形状	5種類
クリアランス	0.6〜2.0 mm
サンプル数	28,000
内容	左右触覚画像シーケンス、視覚画像、アクションラベル

ドメインランダマイゼーション: シミュレーション環境、タスク構成、視覚・触覚観測のパラメータを変化させ、ゼロショットSim2Real転移を強化

3.2. Instruction Tuning with Vision-Guided Temporally Enhanced Tokens

VGTE (Vision-Guided Temporally Enhanced Tokens):

設計要素	説明
視覚ガイダンス	触覚入力の後に視覚入力を配置し、アクション予測に近づける（言語モデルの近接バイアスに対応）
時間的強化	触覚観測を画像表現にエンコードし、ViTで時間認識触覚トークンを抽出

ファインチューニング:

Next Token Prediction (NTP) タスクとして定式化
視覚エンコーダとモダリティアダプタは凍結、言語モデルのみチューニング
ベースモデル: Qwen2-VL 7B
学習率: 5×10⁻⁴、バッチサイズ: 64、10エポック

3.3. Preference Learning

課題: ロボット制御は連続制御信号を予測する回帰問題だが、NTP損失は分類指向

Direct Preference Optimization (DPO):

ファインチューニング済みVTLAモデルで同じ訓練サンプルから多様なアクション予測を生成
真値との近さに基づき、chosenとrejectedにラベル付けしPreferenceデータセットを作成
DPOで最適化（回帰的監督をシミュレート）

学習率: 5×10⁻⁶、バッチサイズ: 32、3エポック

4. Experiments

4.1. Experiment Setup

比較手法:

手法	説明
Diffusion Policy (DP)	視覚・触覚観測で挿入ポリシーを学習
VLA	リストカメラ画像のみで学習
TLA	触覚画像シーケンスのみで学習
VTLA (w/ DPO-1k/2k)	Preferenceデータ1,000/2,400点で学習

評価指標:

指標	説明
GCR (Goal Convergence Rate)	x, y, rz方向すべて正解のアクション割合
L1距離	出力アクションとラベル間の距離
成功率	シミュレーション/実世界でのタスク成功率
平均試行ステップ	成功までの平均ステップ数

実世界ハードウェア:

ロボット: UR3 (6-DoF) + Robotiq 2F-85グリッパー
カメラ: Intel RealSense D405（リスト装着）
触覚センサ: GelStereo 2.0 × 2（指先装着、20 FPS）

4.2. Comparison with Baseline Methods

データセット評価 (ID: 6kサンプル、OOD: 4kサンプル):

手法	GCR-ID	GCR-OOD
DP	7.8%	8.5%
VLA	46.1%	29.5%
TLA	15.3%	14.4%
VTLA	47.3%	31.2%

シミュレーション挿入タスク (0.6mmクリアランス):

手法	四角(ID)	五角形(OOD)	円形(OOD)
DP	22%	26%	10%
VLA	80%	82%	94%
TLA	80%	80%	92%
VTLA	90%	92%	92%

知見:

LLMベースモデルはDPを大幅に上回る（0.6mmクリアランスで80%+ vs 22%）
VTLAはVLAより高い成功率（触覚トークンの有効性）
円形ペグは幾何的等方性により全モデルで同等性能

4.3. Ablation Study

DPOの効果:

手法	GCR-ID	GCR-OOD	L1 x(OOD)	L1 y(OOD)
VTLA (w/o DPO)	47.5%	27.0%	0.349	0.367
VTLA (w/ DPO-1k)	47.5%	31.4%	0.305	0.324
VTLA (w/ DPO-2k)	47.3%	31.2%	0.305	0.324

OODデータでGCRが16%向上、L1誤差が約10%削減
Preferenceデータサイズ増加より多様性が重要

4.4. Real-world Robotic Insertion

クリアランス別成功率:

クリアランス	成功率	平均ステップ
1.6 mm	100%	1.60
1.0 mm	100%	1.95
0.6 mm	95%	4.31

形状別成功率 (0.6mmクリアランス):

形状	VTLA成功率	VLA成功率	TLA成功率
四角(ID)	95%	-	-
三角(ID)	95%	90%	30%
六角(OOD)	95%	-	-
五角(OOD)	100%	100%	40%
円形(OOD)	100%	-	-

知見:

TLAは触覚のみでSim2Realギャップが大きい（30-40%、シミュレーションの約半分）
VTLAは視覚・触覚融合によりOOD形状でも100%達成
VTLAはVLAより効率的な挿入を達成（五角形で1.85ステップ vs 2.3ステップ）

5. Conclusion

成果:

接触リッチ挿入タスク向けVTLAモデルを提案
クロスモーダルファインチューニングで言語を通じた汎化的視覚-触覚スキルを学習
ペグイン穴タスクで90%以上の成功率、TLA/VLAを上回る
シミュレーションデータのみで学習し、実世界で95%の成功率

制限と今後の課題:

課題	説明
触覚-言語アライメント	汎用視覚エンコーダを触覚入力に使用しており、触覚固有の特徴が失われる可能性
視覚-触覚融合	深い統合はLLMでは未探索、今後の研究課題

Appendix A: Domain Randomization on Simulated Dataset

カテゴリ	パラメータ	分布
物理	ヤング率	U(1.0e5, 5.0e5) Pa
物理	ポアソン比	U(0.3, 0.48)
物理	摩擦係数	U(0.2, 0.7)
タスク	ペグオフセットx, z	U(-1.0, 1.0) mm
タスク	接触深さ	U(0.6, 0.9) mm
視覚画像	光源方向	3D空間の任意方向
視覚画像	スケール、並進、回転、せん断変換	各種範囲

Appendix B: Real-World Robot Setup for Insertion Task

UR3 (6-DoF) + Robotiq 2F-85グリッパー
Intel RealSense D405（リスト装着）
GelStereo 2.0 × 2（指先、20 FPS）
ミスアライメント: x, y軸で±2.5mm、z軸回転で±5°

Appendix C: VTLA vs. VLA under Poor Lighting Condition

暗い照明条件下でVTLAは挿入タスクに成功
VLAは視覚画像の品質低下により穴位置の認識が困難でタスク完了に苦戦
触覚観測の活用効果を実証

Quartz 5

Explorer

VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation

Abstract

1. Introduction

Vision-Tactile Learning

VLM for Robot Manipulation

Tactile-Language Model in Robotics

3. Vision-Tactile-Language-Action Model

3.1. Data Collection

3.2. Instruction Tuning with Vision-Guided Temporally Enhanced Tokens

3.3. Preference Learning

4. Experiments

4.1. Experiment Setup

4.2. Comparison with Baseline Methods

4.3. Ablation Study

4.4. Real-world Robotic Insertion

5. Conclusion

Appendix A: Domain Randomization on Simulated Dataset

Appendix B: Real-World Robot Setup for Insertion Task

Appendix C: VTLA vs. VLA under Poor Lighting Condition

Graph View

Table of Contents

Backlinks

Quartz 5

Explorer

VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation

Abstract

1. Introduction

2. Related Works

Vision-Tactile Learning

VLM for Robot Manipulation

Tactile-Language Model in Robotics

3. Vision-Tactile-Language-Action Model

3.1. Data Collection

3.2. Instruction Tuning with Vision-Guided Temporally Enhanced Tokens

3.3. Preference Learning

4. Experiments

4.1. Experiment Setup

4.2. Comparison with Baseline Methods

4.3. Ablation Study

4.4. Real-world Robotic Insertion

5. Conclusion

Appendix A: Domain Randomization on Simulated Dataset

Appendix B: Real-World Robot Setup for Insertion Task

Appendix C: VTLA vs. VLA under Poor Lighting Condition

Graph View

Table of Contents

Backlinks