OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

Abstract

課題: 現在のVLAモデルは触覚知覚を見落とし、接触を多く含むタスクで失敗する

提案: OmniVTLA - 触覚センシングを組み込んだVision-Tactile-Language-Actionモデル

貢献:

貢献	内容
デュアルパス触覚エンコーダ	事前学習済みViT + SA-ViTで多様な触覚センサーに対応
ObjTacデータセット	10カテゴリ56物体、135Kトライモーダルサンプル
意味的整合触覚エンコーダ	クロスモダリティ対照学習で統一触覚表現を学習

結果:

指標	グリッパー	デクスタラスハンド
成功率	96.9% (+21.9%)	100% (+6.2%)

1. Introduction

背景:

触覚は接触ダイナミクス測定、視覚遮蔽への頑健性、高周波フィードバックを提供
初期研究はスリップ検出等の特定タスクに限定、汎化能力に欠ける
既存VLAは触覚を低レベル信号として扱い、意味的整合に失敗

提案: OmniVTLA

視覚・触覚・言語を共有意味空間に統一
対照学習で触覚信号を視覚・言語概念と整合

Tactile Sensing for Perception Tasks

初期: グラスプ安定性予測、スリップ検出等の特定タスク向け
最近: タスク・センサー間で転移可能な一般的触覚表現の学習へシフト
課題: アクションポリシー生成から切り離されている、力覚ベースデータが見落とされている

Vision-Tactile Fusion for Manipulation

強化学習: 組み立てタスク、手内マニピュレーションで視覚・触覚を統合
模倣学習: 視覚-触覚表現の探索
課題: タスク固有の性能に留まり、意味推論・汎化能力が限定的

Vision-Language-Action Model

モデル	特徴
RT-2	アクションを言語トークンとして表現
OpenVLA	LoRAファインチューニングによる効率的転移
後続研究	フロー/拡散ベースアクション生成、3D拡張等

課題: 視覚・言語のみへの依存で接触リッチタスクの性能が制限

3. Methods

3.1. Problem Formulation

VLA: $p (A_{t} ∣ o_{t})$ をモデル化（観測 = RGB画像 + 言語プロンプト + 固有受容状態）
VTLA: 上記に触覚データを追加

3.2. Overall Architecture with Dual-Encoder Path

アーキテクチャ ( $π_{0}$ ベース):

コンポーネント	詳細
トークナイザー (言語)	PaliGemma (語彙サイズ 257,152)
トークナイザー (画像)	SigLiP (224×224 → 256トークン/画像)
トークナイザー (触覚)	ViTライク (int8正規化、256トークン)
バックボーン	Gemma-2B
アクションヘッド	フローマッチング損失で学習

アクション表現:

エンドエフェクタ	トークン数	内容
二本指グリッパー	10	相対位置(3) + 相対角度(6) + グリッパー状態(1)
四本指ハンド	25	相対位置(3) + 相対角度(6) + 絶対関節位置(16)

触覚エンコーダの4設計:

設計	説明
VTLA-FS	スクラッチから学習
VTLA-Pre	事前学習視覚エンコーダで初期化
VTLA-SA	対照学習で意味的整合後にチューニング
OmniVTLA	VTLA-Pre + VTLA-SA のデュアルパス

触覚センサーの異種性:

センサー種別	空間解像度	時間解像度	例
視覚-触覚	高	低 (最大30Hz)	GelSight
力覚ベース	低	高	Paxini Gen2

3.3. Semantic-Aligned Tactile Encoder

課題: 既存AnyTouchは力覚ベースデータで材質分類精度40.21%のみ

ObjTacデータセット:

項目	詳細
物体数	56物体、10カテゴリ
カテゴリ	プラスチック、ガラス、木、石（Brick）、金属、布、革、セラミック、紙、その他
分類属性	表面粗さ (粗い/滑らか)、材質硬さ (剛体/柔らか)
サンプル数	135K触覚-視覚ペア
力データ	270,000記録 (60Hz)
ビデオ	252シーケンス (720P, 30FPS, 平均18秒)

学習: AnyTouchの第2段階パイプラインで視覚-言語、視覚-触覚、触覚-言語間の対照学習

4. Experiments

4.1. Experimental Setup

ベースライン: Diffusion Policy (DP)、 $π_{0}$ (VLA)

ハードウェア:

UR5アーム + 二本指グリッパー (触覚センサー2個)
四本指デクスタラスハンド (触覚センサー11個)
リストカメラ、ベースカメラ
触覚センサー: GelSight (視覚ベース) / Paxini Gen2 (力覚ベース)

タスク: ピックアンドプレース

エンドエフェクタ	対象物体	デモ数	評価ロールアウト数
グリッパー	缶、コーヒーボトル、ガム缶、牛乳パック	各40エピソード	32回/モデル
デクスタラスハンド	コーヒーボトル、牛乳パック	各40エピソード	16回/モデル

評価指標:

指標	説明
MSE	予測状態と真値間の誤差 (オフライン)
成功率 (SR)	タスク成功割合
完了時間 (CT)	タスク開始から完了までのステップ数
滑らかさ	軌道に沿ったエンドエフェクタ動作の分散

4.2. Evaluation Results

実世界結果 (グリッパー、 $π_{0}$ ベースライン):

モデル	成功率	完了時間
VLA ( $π_{0}$ )	75.0%	657ステップ
VTLA-SA	87.5%	484ステップ (-26.3%)
OmniVTLA	96.9% (+21.9%)	498ステップ (-24.2%)

実世界結果 (デクスタラスハンド):

モデル	成功率	完了時間	備考
VLA ( $π_{0}$ )	93.8%	343ステップ	未見物体で87.5%
OmniVTLA	100% (+6.2%)	322ステップ (-6%)	未見物体でも100%

※ 未見物体: プラスチックトールボトル、スクエアコーヒーボトル（学習データに含まれない）

軌道の滑らかさ:

SAエンコーダ: 1.04×10⁻⁴ (VLAベースラインより89.6%改善)
原則: 「明確なときは速く、接触接近時のみ減速」

定性的結果 (Figure 6):

VLAモデルの失敗原因: 接触認識不足 (insufficient contact awareness)、緩い接触 (loose contact)、不規則な接触 (irregular contact)
OmniVTLAは意味的触覚フィードバックにより安定した把持と滑らかな軌道を実現

5. Conclusion and Future Work

成果:

項目	改善
成功率 (グリッパー)	+21.9%
成功率 (デクスタラスハンド)	+6.2%
完了時間	-24.2%
軌道滑らかさ	大幅改善

今後の課題:

より複雑なタスクへの拡張
より効率的な触覚表現
時間的に動的な融合アーキテクチャ

6. Appendix

6.1. Dataset and Training Details

ObjTac物体カテゴリ:

カテゴリ	例
プラスチック	プラスチック電球、飲料ボトル、リモコン、スマホケース、カップ蓋、プラスチックゴブレット
ガラス	ガラス瓶、グラス
木	木板
石（Brick）	石、小石
金属	万力、金属箱、魔法瓶、ノートPC、万年筆、アダプタ
布	綿生地、ジーンズ、枕カバー、麻ズボン、ナイロンシャツ、セーター、スポンジ、キャンバスキャップ、ぬいぐるみ
革	革バッグ
セラミック	セラミックボウル、セラミックタイル
紙	トイレットペーパー、新聞、筆記用紙、名刺、段ボール、紙製ショッピングバッグ
その他	りんご、すりガラス、マウスパッド、ノートカバー

学習詳細:

項目	VTLA & $π_{0}$	VTA & DP
GPU	NVIDIA A100 (80GB VRAM)	NVIDIA A100 (80GB VRAM)
学習方式	ファインチューン	スクラッチ
学習率	2.5e-5 (1Kステップ線形ウォームアップ、29Kステップcosine decay→2.5e-6)	0.0001
バッチサイズ	32	32
ステップ数	30K	200K
入力画像サイズ	224×224	480×640
アクションチャンクサイズ	50ステップ	64ステップ
観測履歴	なし	あり (2ステップ履歴)

6.2. More Results

アブレーション:

全チャンクサイズ (10-50) でOmniVTLAが最低MSEを達成
VTLAは長いシーケンスで接触ダイナミクスをより良く予測

軌道比較:

OmniVTLAはVLAより約50%少ないステップでタスク完了
単一試行で成功、修正調整不要

Quartz 5

Explorer

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

Abstract

1. Introduction

Tactile Sensing for Perception Tasks

Vision-Tactile Fusion for Manipulation

Vision-Language-Action Model

3. Methods

3.1. Problem Formulation

3.2. Overall Architecture with Dual-Encoder Path

3.3. Semantic-Aligned Tactile Encoder

4. Experiments

4.1. Experimental Setup

4.2. Evaluation Results

5. Conclusion and Future Work

6. Appendix

6.1. Dataset and Training Details

6.2. More Results

Graph View

Table of Contents

Quartz 5

Explorer

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

Abstract

1. Introduction

2. Related Works

Tactile Sensing for Perception Tasks

Vision-Tactile Fusion for Manipulation

Vision-Language-Action Model

3. Methods

3.1. Problem Formulation

3.2. Overall Architecture with Dual-Encoder Path

3.3. Semantic-Aligned Tactile Encoder

4. Experiments

4.1. Experimental Setup

4.2. Evaluation Results

5. Conclusion and Future Work

6. Appendix

6.1. Dataset and Training Details

6.2. More Results

Graph View

Table of Contents