Abstract
課題: 現在のVLAモデルは触覚知覚を見落とし、接触を多く含むタスクで失敗する
提案: OmniVTLA - 触覚センシングを組み込んだVision-Tactile-Language-Actionモデル
貢献:
| 貢献 | 内容 |
|---|---|
| デュアルパス触覚エンコーダ | 事前学習済みViT + SA-ViTで多様な触覚センサーに対応 |
| ObjTacデータセット | 10カテゴリ56物体、135Kトライモーダルサンプル |
| 意味的整合触覚エンコーダ | クロスモダリティ対照学習で統一触覚表現を学習 |
結果:
| 指標 | グリッパー | デクスタラスハンド |
|---|---|---|
| 成功率 | 96.9% (+21.9%) | 100% (+6.2%) |
1. Introduction
背景:
- 触覚は接触ダイナミクス測定、視覚遮蔽への頑健性、高周波フィードバックを提供
- 初期研究はスリップ検出等の特定タスクに限定、汎化能力に欠ける
- 既存VLAは触覚を低レベル信号として扱い、意味的整合に失敗
提案: OmniVTLA
- 視覚・触覚・言語を共有意味空間に統一
- 対照学習で触覚信号を視覚・言語概念と整合
2. Related Works
Tactile Sensing for Perception Tasks
- 初期: グラスプ安定性予測、スリップ検出等の特定タスク向け
- 最近: タスク・センサー間で転移可能な一般的触覚表現の学習へシフト
- 課題: アクションポリシー生成から切り離されている、力覚ベースデータが見落とされている
Vision-Tactile Fusion for Manipulation
- 強化学習: 組み立てタスク、手内マニピュレーションで視覚・触覚を統合
- 模倣学習: 視覚-触覚表現の探索
- 課題: タスク固有の性能に留まり、意味推論・汎化能力が限定的
Vision-Language-Action Model
| モデル | 特徴 |
|---|---|
| RT-2 | アクションを言語トークンとして表現 |
| OpenVLA | LoRAファインチューニングによる効率的転移 |
| 後続研究 | フロー/拡散ベースアクション生成、3D拡張等 |
- 課題: 視覚・言語のみへの依存で接触リッチタスクの性能が制限
3. Methods
3.1. Problem Formulation
- VLA: をモデル化(観測 = RGB画像 + 言語プロンプト + 固有受容状態)
- VTLA: 上記に触覚データを追加
3.2. Overall Architecture with Dual-Encoder Path
アーキテクチャ (ベース):
| コンポーネント | 詳細 |
|---|---|
| トークナイザー (言語) | PaliGemma (語彙サイズ 257,152) |
| トークナイザー (画像) | SigLiP (224×224 → 256トークン/画像) |
| トークナイザー (触覚) | ViTライク (int8正規化、256トークン) |
| バックボーン | Gemma-2B |
| アクションヘッド | フローマッチング損失で学習 |
アクション表現:
| エンドエフェクタ | トークン数 | 内容 |
|---|---|---|
| 二本指グリッパー | 10 | 相対位置(3) + 相対角度(6) + グリッパー状態(1) |
| 四本指ハンド | 25 | 相対位置(3) + 相対角度(6) + 絶対関節位置(16) |
触覚エンコーダの4設計:
| 設計 | 説明 |
|---|---|
| VTLA-FS | スクラッチから学習 |
| VTLA-Pre | 事前学習視覚エンコーダで初期化 |
| VTLA-SA | 対照学習で意味的整合後にチューニング |
| OmniVTLA | VTLA-Pre + VTLA-SA のデュアルパス |
触覚センサーの異種性:
| センサー種別 | 空間解像度 | 時間解像度 | 例 |
|---|---|---|---|
| 視覚-触覚 | 高 | 低 (最大30Hz) | GelSight |
| 力覚ベース | 低 | 高 | Paxini Gen2 |
3.3. Semantic-Aligned Tactile Encoder
課題: 既存AnyTouchは力覚ベースデータで材質分類精度40.21%のみ
ObjTacデータセット:
| 項目 | 詳細 |
|---|---|
| 物体数 | 56物体、10カテゴリ |
| カテゴリ | プラスチック、ガラス、木、石(Brick)、金属、布、革、セラミック、紙、その他 |
| 分類属性 | 表面粗さ (粗い/滑らか)、材質硬さ (剛体/柔らか) |
| サンプル数 | 135K触覚-視覚ペア |
| 力データ | 270,000記録 (60Hz) |
| ビデオ | 252シーケンス (720P, 30FPS, 平均18秒) |
学習: AnyTouchの第2段階パイプラインで視覚-言語、視覚-触覚、触覚-言語間の対照学習
4. Experiments
4.1. Experimental Setup
ベースライン: Diffusion Policy (DP)、 (VLA)
ハードウェア:
- UR5アーム + 二本指グリッパー (触覚センサー2個)
- 四本指デクスタラスハンド (触覚センサー11個)
- リストカメラ、ベースカメラ
- 触覚センサー: GelSight (視覚ベース) / Paxini Gen2 (力覚ベース)
タスク: ピックアンドプレース
| エンドエフェクタ | 対象物体 | デモ数 | 評価ロールアウト数 |
|---|---|---|---|
| グリッパー | 缶、コーヒーボトル、ガム缶、牛乳パック | 各40エピソード | 32回/モデル |
| デクスタラスハンド | コーヒーボトル、牛乳パック | 各40エピソード | 16回/モデル |
評価指標:
| 指標 | 説明 |
|---|---|
| MSE | 予測状態と真値間の誤差 (オフライン) |
| 成功率 (SR) | タスク成功割合 |
| 完了時間 (CT) | タスク開始から完了までのステップ数 |
| 滑らかさ | 軌道に沿ったエンドエフェクタ動作の分散 |
4.2. Evaluation Results
実世界結果 (グリッパー、ベースライン):
| モデル | 成功率 | 完了時間 |
|---|---|---|
| VLA () | 75.0% | 657ステップ |
| VTLA-SA | 87.5% | 484ステップ (-26.3%) |
| OmniVTLA | 96.9% (+21.9%) | 498ステップ (-24.2%) |
実世界結果 (デクスタラスハンド):
| モデル | 成功率 | 完了時間 | 備考 |
|---|---|---|---|
| VLA () | 93.8% | 343ステップ | 未見物体で87.5% |
| OmniVTLA | 100% (+6.2%) | 322ステップ (-6%) | 未見物体でも100% |
※ 未見物体: プラスチックトールボトル、スクエアコーヒーボトル(学習データに含まれない)
軌道の滑らかさ:
- SAエンコーダ: 1.04×10⁻⁴ (VLAベースラインより89.6%改善)
- 原則: 「明確なときは速く、接触接近時のみ減速」
定性的結果 (Figure 6):
- VLAモデルの失敗原因: 接触認識不足 (insufficient contact awareness)、緩い接触 (loose contact)、不規則な接触 (irregular contact)
- OmniVTLAは意味的触覚フィードバックにより安定した把持と滑らかな軌道を実現
5. Conclusion and Future Work
成果:
| 項目 | 改善 |
|---|---|
| 成功率 (グリッパー) | +21.9% |
| 成功率 (デクスタラスハンド) | +6.2% |
| 完了時間 | -24.2% |
| 軌道滑らかさ | 大幅改善 |
今後の課題:
- より複雑なタスクへの拡張
- より効率的な触覚表現
- 時間的に動的な融合アーキテクチャ
6. Appendix
6.1. Dataset and Training Details
ObjTac物体カテゴリ:
| カテゴリ | 例 |
|---|---|
| プラスチック | プラスチック電球、飲料ボトル、リモコン、スマホケース、カップ蓋、プラスチックゴブレット |
| ガラス | ガラス瓶、グラス |
| 木 | 木板 |
| 石(Brick) | 石、小石 |
| 金属 | 万力、金属箱、魔法瓶、ノートPC、万年筆、アダプタ |
| 布 | 綿生地、ジーンズ、枕カバー、麻ズボン、ナイロンシャツ、セーター、スポンジ、キャンバスキャップ、ぬいぐるみ |
| 革 | 革バッグ |
| セラミック | セラミックボウル、セラミックタイル |
| 紙 | トイレットペーパー、新聞、筆記用紙、名刺、段ボール、紙製ショッピングバッグ |
| その他 | りんご、すりガラス、マウスパッド、ノートカバー |
学習詳細:
| 項目 | VTLA & | VTA & DP |
|---|---|---|
| GPU | NVIDIA A100 (80GB VRAM) | NVIDIA A100 (80GB VRAM) |
| 学習方式 | ファインチューン | スクラッチ |
| 学習率 | 2.5e-5 (1Kステップ線形ウォームアップ、29Kステップcosine decay→2.5e-6) | 0.0001 |
| バッチサイズ | 32 | 32 |
| ステップ数 | 30K | 200K |
| 入力画像サイズ | 224×224 | 480×640 |
| アクションチャンクサイズ | 50ステップ | 64ステップ |
| 観測履歴 | なし | あり (2ステップ履歴) |
6.2. More Results
アブレーション:
- 全チャンクサイズ (10-50) でOmniVTLAが最低MSEを達成
- VTLAは長いシーケンスで接触ダイナミクスをより良く予測
軌道比較:
- OmniVTLAはVLAより約50%少ないステップでタスク完了
- 単一試行で成功、修正調整不要