VLA-Touch

Abstract

項目	内容
課題	最先端のVLAモデルは触覚信号を解釈・利用する能力がなく、接触が重要なタスクでの有効性が制限される
困難	大規模マルチモーダルデータセットの欠如により、触覚フィードバックの組み込みが困難
提案手法	VLA-Touch: ベースVLAをファインチューニングせずに触覚センシングで汎用ロボットポリシーを強化
主要革新点	(1) 高レベルタスク計画のためのセマンティック触覚フィードバックを提供する事前学習済み触覚言語モデル (2) VLA生成アクションを触覚信号で精緻化する拡散ベース制御器
検証結果	実世界実験で、二重レベル触覚統合がタスク計画効率と実行精度を向上させることを実証

1 Introduction

背景: VLAモデルは多様な環境でのタスク実行を可能にしたが、視覚知覚のみでは接触が重要なタスクに限界がある
仮説: 触覚フィードバックは2つのレベルで接触が重要な操作に有益
1. 計画レベル: 視覚的に曖昧な硬さや表面粗さなどの物体特性の推論
2. 制御レベル: 表面摩擦や接触イベント検出などの接触動力学の把握
課題:
1. 触覚データへの事前露出がないモデルで触覚情報を効果的に取得・計画する方法
2. 触覚入力モダリティを持たない既存VLAパイプラインへの触覚センシング統合方法
提案: 人間の神経系に着想を得た二重レベル触覚フィードバックフレームワーク
- タスクプランナー（前頭前皮質に相当）
- 触覚言語モデル（二次体性感覚皮質に相当）
- 触覚強化制御器（後頭頂皮質に相当）
主要成果:
- 言語的触覚フィードバックで計画効率が最大40%向上
- 触覚組み込み制御器で操作成功率が最大35%向上
- 二重レベルシステムで単一レベルより最大35%高いタスク成功率

分野	概要
Vision-Language-Action Models	VLAモデルは視覚知覚と言語理解を統合してロボット動作を生成。現状は視覚と固有感覚フィードバックが主で、接触が重要なタスクでの有効性が制限される
Tactile Foundation Models and Policy Learning	触覚基盤モデルは大規模触覚データセットで事前学習し汎化可能な表現を抽出。既存の触覚強化ポリシーは主に特定タスクの制御レベル改善に焦点。本研究は計画と制御の2レベルで触覚を統合
Tactile Sensors	触覚センサは(1)タクセルベース（離散位置で接触特性を測定）と(2)ビジョンベース（変形可能表面の光学変化を捕捉）の2種類。本研究ではGelSight Miniを使用

3 Methodology

3.1 Tactile-Assisted Task Planning

循環型タスク計画スキーム: 触覚情報を取得し計画プロセスに組み込む
構成要素:
- VLMタスクプランナー（GPT-4o）: 目標と現在の観測に基づき操作指示を生成
- VLAモデル（RDT）: 操作指示を実行するアクションチャンクを生成
- 触覚言語モデル（Octopi）: 触覚信号を言語的触覚記述に変換し、プランナーに新しい操作指示の生成を促す
VLMプロンプトの要素:
1. システム能力：グリッパー付きアーム、硬さ・粗さ・表面パターンを分類可能な触覚センサ
2. 応答形式：プリミティブ動作（1文）、取得すべき情報
3. 対話プロトコル：各動作後にフィードバックを受け取り次の動作を計画

BRIDGeRベースのInterpolant制御器: 拡散ベースの制御器でVLA生成アクションを触覚フィードバックで精緻化
Interpolant制御器: $π_{I} (\overset{a}{^}_{t : t + T_{i}} ∣ a_{t : t + T_{i}}, s_{t}, m_{t})$
- 入力：ソースアクションチャンク $a_{t : t + T_{i}}$ 、現在状態 $s_{t}$ （事前学習済みDinoV2による視覚埋め込み+ロボット固有感覚）、触覚信号 $m_{t}$
- 触覚力信号 $m_{t} = (X, Y, M)$ ：7×9マーカー配列からマーカートラッキングアルゴリズムで合計力ベクトルと大きさを計算
- 出力：精緻化されたアクションシーケンス $\overset{a}{^}_{t : t + T_{i}}$
学習: ペアになったVLA生成アクションとエキスパートアクションシーケンスで教師あり学習
推論: スライディングウィンドウ精緻化戦略でソースアクションチャンクの重複しないセグメントを順次処理

4 Experiments

4.1 Experiment Setup

項目	内容
ハードウェア	Franka Emika Panda + Robotiq 2F-140グリッパー + GelSight Mini触覚センサ + RealSenseカメラ2台（シーン用・手首用） + RTX 4090 GPU
ベースライン（計画）	GPT-4o（触覚なし）、GPT-4o + 触覚画像、GPT-4o + Octopi（提案手法）
ベースライン（操作）	RDT（触覚なし）、RDT + 残差制御器、RDT + Interpolant制御器（提案手法）
タスク	Cup（カップの水有無判定と配置）、Wipe（滑らかなスポンジ選択と拭き取り）、Peel（熟したマンゴー選択と皮むき）

4.2 Task Planning Results

条件	硬さ	粗さ	力
触覚なし（GPT-4o）	50%	50%	50%
触覚画像あり	60%	100%	50%
言語的触覚記述あり（提案手法）	75%	100%	90%

GPT-4oはシーン画像のみでは触覚特性を推論できない（ランダム推測と同等）
生の触覚画像では表面粗さは効果的に識別できるが、力（50%）と硬さ（60%）は困難
言語的触覚記述（Octopi）では力予測90%、硬さ75%と大幅に向上

4.3 Manipulation Results

タスク	評価	RDT	残差制御器	Interpolant制御器
Cup	Pick	9/20	7/20	12/20
	Place	2/9	3/7	10/12
Wipe	Pick	11/20	15/20	17/20
	Wipe完了	5/20	6/20	12/20
Peel	Pick	13/20	14/20	18/20
	Peel完了	6/20	7/20	10/20

Interpolant制御器はベースRDTに対しタスク成功率を42%（Cup）、140%（Wipe）、67%（Peel）向上
残差制御器に対しても67%（Cup）、100%（Wipe）、42%（Peel）向上

4.4 Dual-Level Tactile Feedback

タスク	計画のみ触覚なし	制御のみ触覚なし	VLA-Touch（両方あり）
Cup	5/20	6/20	9/20
Wipe	5/20	5/20	12/20
Peel	6/20	4/20	7/20

計画から触覚を除去：成功率44%（Cup）、58%（Wipe）、14%（Peel）低下
制御から触覚を除去：成功率33%（Cup）、58%（Wipe）、43%（Peel）低下
両コンポーネントが触覚情報に決定的に依存

4.5 Ablation Study of Interpolant Controller

条件	Cup配置	Wipe完了	Peel完了
触覚なし	5/20（-50%）	7/20（-42%）	5/20（-50%）
視覚なし	7/20（-30%）	8/20（-33%）	5/20（-50%）
両方あり（提案手法）	10/20	12/20	10/20

触覚除去：ピッキングは維持されるが接触が重要なフェーズで大幅低下
視覚除去：空間位置決めタスクで顕著な低下

5 Conclusion

VLA-Touchは、VLAモデルにファインチューニングなしで二重レベル触覚フィードバックを組み込むフレームワーク
主要革新：(1) 高レベルタスク計画のための事前学習済み触覚言語モデルパイプライン、(2) 接触が重要な操作のためのinterpolantベース制御器
3つの実世界実験で有効性を実証
アブレーション研究で視覚と触覚の両方が接触が重要なタスクに不可欠であることを確認

6 Limitation and Future Works

制限事項	詳細
グリッパー制御設定	Octopiの事前学習データセットと異なり、接触測定に不一致が生じる（特に硬さ判定）
汎化範囲	物体位置と目標位置の汎化に焦点。タスク間の汎化には大幅な追加学習が必要
制御周波数	Interpolant制御器は8Hzで動作し、高周波触覚信号（約25Hz）を十分活用していない

将来の研究方向	詳細
アクティブグラスピング	視覚-触覚フィードバックを組み合わせた動的な把持姿勢精緻化
イベントトリガー推論	接触状態遷移時の処理を加速し、安定期間中はリソースを節約
タスク非依存ポリシー精緻化	より多くの実世界タスクにスケール可能な手法開発

Quartz 5

Explorer

VLA-Touch

Abstract

1 Introduction

3 Methodology

3.1 Tactile-Assisted Task Planning

3.2 VLA Policy Refinement with Tactile Sensing

4 Experiments

4.1 Experiment Setup

4.2 Task Planning Results

4.3 Manipulation Results

4.4 Dual-Level Tactile Feedback

4.5 Ablation Study of Interpolant Controller

5 Conclusion

6 Limitation and Future Works

Graph View

Table of Contents

Quartz 5

Explorer

VLA-Touch

Abstract

1 Introduction

2 Related Work

3 Methodology

3.1 Tactile-Assisted Task Planning

3.2 VLA Policy Refinement with Tactile Sensing

4 Experiments

4.1 Experiment Setup

4.2 Task Planning Results

4.3 Manipulation Results

4.4 Dual-Level Tactile Feedback

4.5 Ablation Study of Interpolant Controller

5 Conclusion

6 Limitation and Future Works

Graph View

Table of Contents