Abstract

課題: VLAモデルは視覚-言語コンポーネントの豊富な暗黙知により成果を上げているが、接触リッチなシナリオでの精密な力制御が必要な物理的インタラクションへのグラウンディングが不足

提案: Tactile-VLA - 視覚・言語・行動・触覚センシングを深く融合したフレームワーク

  • ハイブリッド位置-力制御器によりモデルの意図を精密な物理アクションに変換
  • 触覚フィードバックに基づいて戦略を適応させる推論モジュールを搭載

主要な発見: VLMの事前知識には物理的インタラクションの意味理解が既に含まれており、少数のデモンストレーションでロボットの触覚センサと接続することで、この事前知識を活性化し接触リッチタスクでゼロショット汎化を達成可能

有効性の実証:

  1. 触覚認識型指示追従(Tactile-Aware Instruction Following)
  2. 触覚関連常識の活用(Tactile-Relevant Common Sense)
  3. 適応的触覚関与推論(Tactile-Involved Reasoning)

1. Introduction

背景:

  • VLAモデルは高レベルの推論・計画に優れるが、細粒度の物理的現実へのグラウンディングが不足
  • 接触リッチな設定では精密な力制御が不可欠
  • 触覚知覚は視覚・言語とは異なり、物理的インタラクションに関する豊富で局所的かつ時間的に動的なフィードバックを提供

既存手法の限界:

  • 従来のVLAは視覚・言語モダリティに焦点を当て、触覚情報はポリシーのアクション生成に直接関与していない
  • 触覚を補助的な知覚モダリティとしてのみ扱っている

提案手法の3つの次元:

次元説明
Tactile-Aware Instruction Following「softly」「hard」などの力関連言語の意味を学習し、抽象的意図と物理的実行を橋渡し
Tactile-Relevant Common Sense世界知識と意味推論を適用し、物体特性や文脈に基づいて接触行動を調整
Tactile-Involved ReasoningChain-of-Thought(CoT)プロセスで触覚フィードバックを推論し、失敗診断と修正アクションを策定

主要貢献:

  1. 触覚センシングをVLAモデルに導入し、意味的グラウンディングと力制御を強化するTactile-VLAフレームワークの提案
  2. リアルタイム力フィードバックのCoTスタイル解釈を活用するTactile-VLA-CoTの導入
  3. ゼロショット、クロスオブジェクト、力感度設定での強い汎化性能の実証

2. Tactile-VLA Methodology

2.1 Policy Architecture and Learning

設計目標: VLAモデルに内在する物理的知識を解放し、抽象的な理解を精密な実世界の力制御に変換。同じ動作でも力が異なる指示(「USBをしっかり挿して」vs「USBを優しく挿して」)を区別可能にする。

入力のトークンレベル融合:

モダリティエンコーダ処理
視覚事前学習済みViT ()過去フレームを個別のトークン集合に変換
言語共通トークナイザ ()指示文をトークン化
触覚MLP ()過去時刻の触覚信号を連結し、1つの融合トークンに変換(時間的ダイナミクスを表現)

統合入力シーケンス:

入力プレフィックス上で非因果的アテンション(Non-causal attention)を適用し、視覚・言語・触覚トークンが自由に相互アテンション可能。

出力: Tactile-Aware Action Expertが目標位置 と目標接触力 を含む拡張アクションベクトル を出力

ベースモデル: Gemma (2.6B) をVLMバックボーンとして使用(Figure 2より)

学習方法:

  • 共有コンポーネントは の事前学習済みパラメータで初期化
  • 新規モジュール(触覚エンコーダ、アクションエキスパート)はランダム初期化
  • Conditional Flow Matching(CFM)目的関数で全体をエンドツーエンド微調整
  • 損失関数は運動学的次元と力次元の両方で予測誤差をペナルティ
  • 言語のニュアンス(例:「gently」)と対応する物理的な力の大きさ(例:0.5N)の直接的なマッピングを学習

2.2 Hybrid Position-Force Controller

戦略: 位置優先(Position-dominant)で、力目標を位置コマンドの適応的調整に変換。ほとんどの操作タスクは精密な運動学的動作が主であり、力制御は接触フェーズでのみ必要という認識に基づく。

アプローチ: インピーダンス制御の原理に着想を得た間接的な力制御方法を採用。古典的なインピーダンス制御が受動的なコンプライアンスを目指すのに対し、本手法は目標力のアクティブな追従を目的とする。

制御則:

  • : 力誤差
  • : ゲイン行列
  • : 閾値(動作の滑らかさを向上させるため、閾値を超えた場合のみ補正を適用)
  • PIDコントローラが動的に更新されたに向けてロボット関節を駆動

力の分離制御:

力成分制御チャネル説明
外力(Net External Force)グリッパのカルテシアン位置物体に加える外力を制御
把持力(Grasping Force)グリッパ幅物体をどの程度しっかり把持するかを制御

2つの独立した制御チャネルを確立することで、外力と把持力を個別に調整可能。

2.3 Tactile-VLA-CoT: Reasoning-Based Adaptation

目的: VLMの潜在的推論能力を活性化し、触覚フィードバックに基づくロバストな適応を実現

CoTプロセス:

  1. VLMの事前学習済みデコーダで明示的な内部モノローグを生成
  2. 失敗の原因(例:予期せぬ滑り)を推論し、修正アクションを策定
  3. 一定間隔でトリガーされ、進捗をレビュー

プロンプト構造(Figure 3参照):

  1. タスクが成功したか判定(例:「ボードは綺麗になりましたか?」→「いいえ、まだ跡が残っています」)
  2. 失敗の場合、感覚フィードバックを用いて原因を分析(例:「せん断力はもっと大きくすべきですが、法線力は十分です」)
  3. 修正指示を生成(例:「もう一度拭いてください。ただし、もっと下向きの力を加えて」)

学習データ:

  • 失敗イベント(例:滑りを伴うボード拭き)と失敗原因を分析する言語アノテーションをペアにしたデータセットで微調整
  • 訓練は二重の目的を持つ:(1) VLMの一般的推論能力を保持し破滅的忘却を防止、(2) 推論を触覚モダリティに拡張し、センサ信号から物理現象を推論する能力を習得

2.4 Data Collection

課題: 従来のテレオペレーションでは操作者に直接的な力フィードバックがなく、触覚に依存しないポリシーになりがち。このような方法で収集されたポリシーは本質的に触覚情報に依存せず、学習目的に適さない。

解決策: Universal Manipulation Interface(UMI)を拡張した専用データ収集セットアップを構築

  • デュアル高解像度触覚センサ(法線力・せん断力を取得)をグリッパに追加
  • 操作者が接触ダイナミクスを直接感知しながらデモンストレーションを提供
  • 各収集セッション前にすべてのデータストリームのタイムスタンプを同期

VLA-Tデータセット:

データ収集にはUniversal Manipulation Interface(UMI)を拡張したセットアップを使用。

データサンプリングレート
視覚画像20 Hz
触覚フィードバック100 Hz → 20 Hzにダウンサンプリング
言語指示-
アクション軌跡-

収集されたデータは精密に時間同期されたマルチモーダル情報(視覚、言語、触覚、アクション軌跡)を含む。


3. Experiments

3.1 Implementation Details

ベースライン:

手法説明
-base汎用ロボット制御用VLAフローモデル
-fast-baseの高速版
Tactile-VLA提案手法
Tactile-VLA-CoTCoT推論プロセス付き変種

タスクとデータ収集:

タスク訓練データ
Charger/USB挿抜「soft」「hard」USB操作各100デモ + 充電器基本動作100デモ
Tabletop Grasping6種類の物体×50デモ = 300デモ(+評価用6種類の未知物体)
Wiping the Boardホワイトボード上で成功100デモ + 失敗100デモ(黒板は訓練に含まず)

3.2 Tactile-Relevant Instruction Following

実験目的: 力関連副詞(「softly」「hard」等)の汎化的理解をタスク間で転移できるか検証

設定:

  • Task A(USB挿抜): 力関連言語指示付きで訓練
  • Task B(充電器挿抜): 動作のみ訓練、力指示なし

成功率(Table 1):

モデルUSB (%)Charger (%)
-base540
-fast025
Tactile-VLA3590

適用力(Table 2):

Learned Task (USB):

モデル’softly’ (学習済)‘hard’ (学習済)‘gently’ (汎化)‘firmly’ (汎化)‘rigidly’ (汎化)‘harder’ (汎化)
-base2.412.682.352.722.532.29
-fast2.612.332.792.452.262.58
Tactile-VLA0.512.570.751.982.422.94

Generalized Task (Charger) - ゼロショット:

モデル’softly''hard’
-base6.615.69
-fast7.376.42
Tactile-VLA4.689.13

知見:

  • Tactile-VLAは訓練語(softly/hard)を正しく区別(0.51N vs 2.57N)
  • 未訓練の類似副詞(gently/firmly/rigidly)にも適切な力を適用
  • 「harder」には訓練時の「hard」を超える力(2.94N > 2.57N)を外挿
  • ゼロショットで未学習タスク(充電器)にも力の意味理解を転移(softly: 4.68N, hard: 9.13N)
  • ベースラインは副詞による力の区別ができず、全条件で類似した力を適用

3.3 Tactile-Relevant Common Sense

実験目的: VLMの常識知識を活用し、未知物体に適切な把持力を推論できるか検証

物体カテゴリ:

  • Solid & Heavy: 硬く重い物体
    • ID(訓練時): 鉄キューブ(Iron cube)、バッテリー(Battery)
    • OOD(未知): 釘(Nail)、鉄球(Steel Ball)
  • Solid & Light: 硬く軽い物体
    • ID: 木ブロック(Wood block)、充電器(Charger)
    • OOD: プラスチック(Plastic)、おもちゃ(Toy)
  • Fragile & Light: 壊れやすく軽い物体
    • ID: ピタヤ(Pitaya)、メロン(Melon)
    • OOD: ブルーベリー(BlueBerry)、紙箱(PaperBox)

成功率(Table 3)(各物体10回試行):

モデルIron cube (ID)Battery (ID)Nail (OOD)Steel Ball (OOD)Wood block (ID)Charger (ID)Plastic (OOD)Toy (OOD)Pitaya (ID)Melon (ID)BlueBerry (OOD)PaperBox (OOD)
-base1008030606070403050000
-fast7060107070503040401000
Tactile-VLA1009010090901008090908010090

知見:

  • Tactile-VLAは全カテゴリ・全物体で80-100%の成功率
  • 壊れやすい物体(ピタヤ、メロン、ブルーベリー、紙箱)でも80-100%を維持
  • 系は未知物体、特に脆弱物体で成功率が著しく低下(Melon: 0-10%、BlueBerry/PaperBox: 0%)
  • VLMの常識知識を触覚モダリティに効果的に転用し、物体の特性に応じた適切な把持力を推論

3.4 Tactile-Involved Reasoning

実験目的: 触覚フィードバックから物理的失敗を解釈し、自律的に戦略を調整できるか検証

設定:

  • 訓練: ホワイトボード上で成功・失敗デモ(失敗には修正思考プロセスのアノテーション付き)
  • 評価: ゼロショットで黒板に転移(より強い力が必要)

成功率(Table 4):

モデルIn-Domain (Whiteboard)Out-of-Domain (Blackboard)
-base400
-fast450
Tactile-VLA8015
Tactile-VLA-CoT7580

知見:

  • 初期試行でデフォルト力(3.5N)→失敗を認識
  • CoTモジュールが推論を生成し、自律的に力を6.7Nに増加(訓練データの5Nを34%超過)
  • ベースラインは触覚失敗を解釈できず、同じ低力アクションを繰り返し実行

Vision-Language-Action (VLA) Models

モデル特徴
RT-1, RT-2視覚と言語入力をアクションシーケンスにマッピング
, OpenVLA, PALM-E強力な事前学習バックボーンを活用
Octo, VIMA, Gato複雑な指示と視覚シーンの理解

課題: 視覚情報が遮蔽、曖昧、不十分な接触リッチタスクでは性能が制限される

関連する同時期の研究:

  • FuSe (Jones et al., 2025): 補助損失での微調整
  • ForceVLA (Yu et al., 2025): モダリティ固有ルーティング

Tactile-VLAとの差異:

  • 上記の手法とは異なり、Tactile-VLAはVLMの潜在空間に既に豊富な物理的インタラクションの意味理解が含まれていることを実証
  • 少数のデモンストレーションで触覚センサに直接接続することでこの事前知識を解放し、接触リッチタスクでゼロショット汎化を達成

Tactile Integration in Robot Policies

タスク領域: 把持、挿入、インハンドマニピュレーション、布操作、道具使用など

技術的アプローチ:

  • 階層的アーキテクチャ(計画と制御の分離)
  • 形状付き報酬を用いた強化学習
  • 力中心模倣学習
  • エンドツーエンド視触覚ポリシー

課題: 言語モダリティを含まないため、新規指示への汎化や常識知識の活用が制限

Tactile-VLAの位置づけ: 触覚に基づくポリシーの物理的精度と、現代的VLAの意味的柔軟性・広範な世界知識を組み合わせることを目指す


5. Conclusion

主要な発見: VLAモデルは物理的インタラクションの潜在的・意味的理解を既に保持している

Tactile-VLAの貢献:

  • 触覚センシングをネイティブモダリティとして深く融合
  • VLMの抽象的知識と物理的力のダイナミクスを橋渡しする本質的な接続を構築
  • 少数デモでこの強力な事前知識を解放し、繊細な物理的インタラクションを要するタスクでゼロショット汎化を達成