Abstract

課題: 現在のVLAモデルは触覚知覚を見落とし、接触を多く含むタスクで失敗する

提案: OmniVTLA - 触覚センシングを組み込んだVision-Tactile-Language-Actionモデル

貢献:

貢献内容
デュアルパス触覚エンコーダ事前学習済みViT + SA-ViTで多様な触覚センサーに対応
ObjTacデータセット10カテゴリ56物体、135Kトライモーダルサンプル
意味的整合触覚エンコーダクロスモダリティ対照学習で統一触覚表現を学習

結果:

指標グリッパーデクスタラスハンド
成功率96.9% (+21.9%)100% (+6.2%)

1. Introduction

背景:

  • 触覚は接触ダイナミクス測定、視覚遮蔽への頑健性、高周波フィードバックを提供
  • 初期研究はスリップ検出等の特定タスクに限定、汎化能力に欠ける
  • 既存VLAは触覚を低レベル信号として扱い、意味的整合に失敗

提案: OmniVTLA

  • 視覚・触覚・言語を共有意味空間に統一
  • 対照学習で触覚信号を視覚・言語概念と整合

Tactile Sensing for Perception Tasks

  • 初期: グラスプ安定性予測、スリップ検出等の特定タスク向け
  • 最近: タスク・センサー間で転移可能な一般的触覚表現の学習へシフト
  • 課題: アクションポリシー生成から切り離されている、力覚ベースデータが見落とされている

Vision-Tactile Fusion for Manipulation

  • 強化学習: 組み立てタスク、手内マニピュレーションで視覚・触覚を統合
  • 模倣学習: 視覚-触覚表現の探索
  • 課題: タスク固有の性能に留まり、意味推論・汎化能力が限定的

Vision-Language-Action Model

モデル特徴
RT-2アクションを言語トークンとして表現
OpenVLALoRAファインチューニングによる効率的転移
後続研究フロー/拡散ベースアクション生成、3D拡張等
  • 課題: 視覚・言語のみへの依存で接触リッチタスクの性能が制限

3. Methods

3.1. Problem Formulation

  • VLA: をモデル化(観測 = RGB画像 + 言語プロンプト + 固有受容状態)
  • VTLA: 上記に触覚データを追加

3.2. Overall Architecture with Dual-Encoder Path

アーキテクチャ (ベース):

コンポーネント詳細
トークナイザー (言語)PaliGemma (語彙サイズ 257,152)
トークナイザー (画像)SigLiP (224×224 → 256トークン/画像)
トークナイザー (触覚)ViTライク (int8正規化、256トークン)
バックボーンGemma-2B
アクションヘッドフローマッチング損失で学習

アクション表現:

エンドエフェクタトークン数内容
二本指グリッパー10相対位置(3) + 相対角度(6) + グリッパー状態(1)
四本指ハンド25相対位置(3) + 相対角度(6) + 絶対関節位置(16)

触覚エンコーダの4設計:

設計説明
VTLA-FSスクラッチから学習
VTLA-Pre事前学習視覚エンコーダで初期化
VTLA-SA対照学習で意味的整合後にチューニング
OmniVTLAVTLA-Pre + VTLA-SA のデュアルパス

触覚センサーの異種性:

センサー種別空間解像度時間解像度
視覚-触覚低 (最大30Hz)GelSight
力覚ベースPaxini Gen2

3.3. Semantic-Aligned Tactile Encoder

課題: 既存AnyTouchは力覚ベースデータで材質分類精度40.21%のみ

ObjTacデータセット:

項目詳細
物体数56物体、10カテゴリ
カテゴリプラスチック、ガラス、木、石(Brick)、金属、布、革、セラミック、紙、その他
分類属性表面粗さ (粗い/滑らか)、材質硬さ (剛体/柔らか)
サンプル数135K触覚-視覚ペア
力データ270,000記録 (60Hz)
ビデオ252シーケンス (720P, 30FPS, 平均18秒)

学習: AnyTouchの第2段階パイプラインで視覚-言語、視覚-触覚、触覚-言語間の対照学習

4. Experiments

4.1. Experimental Setup

ベースライン: Diffusion Policy (DP)、 (VLA)

ハードウェア:

  • UR5アーム + 二本指グリッパー (触覚センサー2個)
  • 四本指デクスタラスハンド (触覚センサー11個)
  • リストカメラ、ベースカメラ
  • 触覚センサー: GelSight (視覚ベース) / Paxini Gen2 (力覚ベース)

タスク: ピックアンドプレース

エンドエフェクタ対象物体デモ数評価ロールアウト数
グリッパー缶、コーヒーボトル、ガム缶、牛乳パック各40エピソード32回/モデル
デクスタラスハンドコーヒーボトル、牛乳パック各40エピソード16回/モデル

評価指標:

指標説明
MSE予測状態と真値間の誤差 (オフライン)
成功率 (SR)タスク成功割合
完了時間 (CT)タスク開始から完了までのステップ数
滑らかさ軌道に沿ったエンドエフェクタ動作の分散

4.2. Evaluation Results

実世界結果 (グリッパー、ベースライン):

モデル成功率完了時間
VLA ()75.0%657ステップ
VTLA-SA87.5%484ステップ (-26.3%)
OmniVTLA96.9% (+21.9%)498ステップ (-24.2%)

実世界結果 (デクスタラスハンド):

モデル成功率完了時間備考
VLA ()93.8%343ステップ未見物体で87.5%
OmniVTLA100% (+6.2%)322ステップ (-6%)未見物体でも100%

※ 未見物体: プラスチックトールボトル、スクエアコーヒーボトル(学習データに含まれない)

軌道の滑らかさ:

  • SAエンコーダ: 1.04×10⁻⁴ (VLAベースラインより89.6%改善)
  • 原則: 「明確なときは速く、接触接近時のみ減速」

定性的結果 (Figure 6):

  • VLAモデルの失敗原因: 接触認識不足 (insufficient contact awareness)、緩い接触 (loose contact)、不規則な接触 (irregular contact)
  • OmniVTLAは意味的触覚フィードバックにより安定した把持と滑らかな軌道を実現

5. Conclusion and Future Work

成果:

項目改善
成功率 (グリッパー)+21.9%
成功率 (デクスタラスハンド)+6.2%
完了時間-24.2%
軌道滑らかさ大幅改善

今後の課題:

  • より複雑なタスクへの拡張
  • より効率的な触覚表現
  • 時間的に動的な融合アーキテクチャ

6. Appendix

6.1. Dataset and Training Details

ObjTac物体カテゴリ:

カテゴリ
プラスチックプラスチック電球、飲料ボトル、リモコン、スマホケース、カップ蓋、プラスチックゴブレット
ガラスガラス瓶、グラス
木板
石(Brick)石、小石
金属万力、金属箱、魔法瓶、ノートPC、万年筆、アダプタ
綿生地、ジーンズ、枕カバー、麻ズボン、ナイロンシャツ、セーター、スポンジ、キャンバスキャップ、ぬいぐるみ
革バッグ
セラミックセラミックボウル、セラミックタイル
トイレットペーパー、新聞、筆記用紙、名刺、段ボール、紙製ショッピングバッグ
その他りんご、すりガラス、マウスパッド、ノートカバー

学習詳細:

項目VTLA & VTA & DP
GPUNVIDIA A100 (80GB VRAM)NVIDIA A100 (80GB VRAM)
学習方式ファインチューンスクラッチ
学習率2.5e-5 (1Kステップ線形ウォームアップ、29Kステップcosine decay→2.5e-6)0.0001
バッチサイズ3232
ステップ数30K200K
入力画像サイズ224×224480×640
アクションチャンクサイズ50ステップ64ステップ
観測履歴なしあり (2ステップ履歴)

6.2. More Results

アブレーション:

  • 全チャンクサイズ (10-50) でOmniVTLAが最低MSEを達成
  • VTLAは長いシーケンスで接触ダイナミクスをより良く予測

軌道比較:

  • OmniVTLAはVLAより約50%少ないステップでタスク完了
  • 単一試行で成功、修正調整不要