Abstract

項目内容
課題最先端のVLAモデルは触覚信号を解釈・利用する能力がなく、接触が重要なタスクでの有効性が制限される
困難大規模マルチモーダルデータセットの欠如により、触覚フィードバックの組み込みが困難
提案手法VLA-Touch: ベースVLAをファインチューニングせずに触覚センシングで汎用ロボットポリシーを強化
主要革新点(1) 高レベルタスク計画のためのセマンティック触覚フィードバックを提供する事前学習済み触覚言語モデル
(2) VLA生成アクションを触覚信号で精緻化する拡散ベース制御器
検証結果実世界実験で、二重レベル触覚統合がタスク計画効率と実行精度を向上させることを実証

1 Introduction

  • 背景: VLAモデルは多様な環境でのタスク実行を可能にしたが、視覚知覚のみでは接触が重要なタスクに限界がある
  • 仮説: 触覚フィードバックは2つのレベルで接触が重要な操作に有益
    1. 計画レベル: 視覚的に曖昧な硬さや表面粗さなどの物体特性の推論
    2. 制御レベル: 表面摩擦や接触イベント検出などの接触動力学の把握
  • 課題:
    1. 触覚データへの事前露出がないモデルで触覚情報を効果的に取得・計画する方法
    2. 触覚入力モダリティを持たない既存VLAパイプラインへの触覚センシング統合方法
  • 提案: 人間の神経系に着想を得た二重レベル触覚フィードバックフレームワーク
    • タスクプランナー(前頭前皮質に相当)
    • 触覚言語モデル(二次体性感覚皮質に相当)
    • 触覚強化制御器(後頭頂皮質に相当)
  • 主要成果:
    • 言語的触覚フィードバックで計画効率が最大40%向上
    • 触覚組み込み制御器で操作成功率が最大35%向上
    • 二重レベルシステムで単一レベルより最大35%高いタスク成功率
分野概要
Vision-Language-Action ModelsVLAモデルは視覚知覚と言語理解を統合してロボット動作を生成。現状は視覚と固有感覚フィードバックが主で、接触が重要なタスクでの有効性が制限される
Tactile Foundation Models and Policy Learning触覚基盤モデルは大規模触覚データセットで事前学習し汎化可能な表現を抽出。既存の触覚強化ポリシーは主に特定タスクの制御レベル改善に焦点。本研究は計画と制御の2レベルで触覚を統合
Tactile Sensors触覚センサは(1)タクセルベース(離散位置で接触特性を測定)と(2)ビジョンベース(変形可能表面の光学変化を捕捉)の2種類。本研究ではGelSight Miniを使用

3 Methodology

3.1 Tactile-Assisted Task Planning

  • 循環型タスク計画スキーム: 触覚情報を取得し計画プロセスに組み込む
  • 構成要素:
    • VLMタスクプランナー(GPT-4o): 目標と現在の観測に基づき操作指示を生成
    • VLAモデル(RDT): 操作指示を実行するアクションチャンクを生成
    • 触覚言語モデル(Octopi): 触覚信号を言語的触覚記述に変換し、プランナーに新しい操作指示の生成を促す
  • VLMプロンプトの要素:
    1. システム能力:グリッパー付きアーム、硬さ・粗さ・表面パターンを分類可能な触覚センサ
    2. 応答形式:プリミティブ動作(1文)、取得すべき情報
    3. 対話プロトコル:各動作後にフィードバックを受け取り次の動作を計画

3.2 VLA Policy Refinement with Tactile Sensing

  • BRIDGeRベースのInterpolant制御器: 拡散ベースの制御器でVLA生成アクションを触覚フィードバックで精緻化
  • Interpolant制御器:
    • 入力:ソースアクションチャンク 、現在状態 (事前学習済みDinoV2による視覚埋め込み+ロボット固有感覚)、触覚信号
    • 触覚力信号 :7×9マーカー配列からマーカートラッキングアルゴリズムで合計力ベクトルと大きさを計算
    • 出力:精緻化されたアクションシーケンス
  • 学習: ペアになったVLA生成アクションとエキスパートアクションシーケンスで教師あり学習
  • 推論: スライディングウィンドウ精緻化戦略でソースアクションチャンクの重複しないセグメントを順次処理

4 Experiments

4.1 Experiment Setup

項目内容
ハードウェアFranka Emika Panda + Robotiq 2F-140グリッパー + GelSight Mini触覚センサ + RealSenseカメラ2台(シーン用・手首用) + RTX 4090 GPU
ベースライン(計画)GPT-4o(触覚なし)、GPT-4o + 触覚画像、GPT-4o + Octopi(提案手法)
ベースライン(操作)RDT(触覚なし)、RDT + 残差制御器、RDT + Interpolant制御器(提案手法)
タスクCup(カップの水有無判定と配置)、Wipe(滑らかなスポンジ選択と拭き取り)、Peel(熟したマンゴー選択と皮むき)

4.2 Task Planning Results

条件硬さ粗さ
触覚なし(GPT-4o)50%50%50%
触覚画像あり60%100%50%
言語的触覚記述あり(提案手法)75%100%90%
  • GPT-4oはシーン画像のみでは触覚特性を推論できない(ランダム推測と同等)
  • 生の触覚画像では表面粗さは効果的に識別できるが、力(50%)と硬さ(60%)は困難
  • 言語的触覚記述(Octopi)では力予測90%、硬さ75%と大幅に向上

4.3 Manipulation Results

タスク評価RDT残差制御器Interpolant制御器
CupPick9/207/2012/20
Place2/93/710/12
WipePick11/2015/2017/20
Wipe完了5/206/2012/20
PeelPick13/2014/2018/20
Peel完了6/207/2010/20
  • Interpolant制御器はベースRDTに対しタスク成功率を42%(Cup)、140%(Wipe)、67%(Peel)向上
  • 残差制御器に対しても67%(Cup)、100%(Wipe)、42%(Peel)向上

4.4 Dual-Level Tactile Feedback

タスク計画のみ触覚なし制御のみ触覚なしVLA-Touch(両方あり)
Cup5/206/209/20
Wipe5/205/2012/20
Peel6/204/207/20
  • 計画から触覚を除去:成功率44%(Cup)、58%(Wipe)、14%(Peel)低下
  • 制御から触覚を除去:成功率33%(Cup)、58%(Wipe)、43%(Peel)低下
  • 両コンポーネントが触覚情報に決定的に依存

4.5 Ablation Study of Interpolant Controller

条件Cup配置Wipe完了Peel完了
触覚なし5/20(-50%)7/20(-42%)5/20(-50%)
視覚なし7/20(-30%)8/20(-33%)5/20(-50%)
両方あり(提案手法)10/2012/2010/20
  • 触覚除去:ピッキングは維持されるが接触が重要なフェーズで大幅低下
  • 視覚除去:空間位置決めタスクで顕著な低下

5 Conclusion

  • VLA-Touchは、VLAモデルにファインチューニングなしで二重レベル触覚フィードバックを組み込むフレームワーク
  • 主要革新:(1) 高レベルタスク計画のための事前学習済み触覚言語モデルパイプライン、(2) 接触が重要な操作のためのinterpolantベース制御器
  • 3つの実世界実験で有効性を実証
  • アブレーション研究で視覚と触覚の両方が接触が重要なタスクに不可欠であることを確認

6 Limitation and Future Works

制限事項詳細
グリッパー制御設定Octopiの事前学習データセットと異なり、接触測定に不一致が生じる(特に硬さ判定)
汎化範囲物体位置と目標位置の汎化に焦点。タスク間の汎化には大幅な追加学習が必要
制御周波数Interpolant制御器は8Hzで動作し、高周波触覚信号(約25Hz)を十分活用していない
将来の研究方向詳細
アクティブグラスピング視覚-触覚フィードバックを組み合わせた動的な把持姿勢精緻化
イベントトリガー推論接触状態遷移時の処理を加速し、安定期間中はリソースを節約
タスク非依存ポリシー精緻化より多くの実世界タスクにスケール可能な手法開発