Abstract

  • VLA (Vision-Language-Action) モデルは、視覚・言語入力に依存するため、接触を多用するタスク(特に視覚的オクルージョンや動的不確実性がある場合)では困難を抱える
  • ForceVLA: 外部力センシングをVLAシステムの一等モダリティとして扱う新しいエンドツーエンドマニピュレーションフレームワーク
  • FVLMoE: 事前学習済みの視覚言語埋め込みとリアルタイムの6軸力フィードバックを動的に統合する力認識 Mixture-of-Experts 融合モジュール
  • ForceVLA-Data: 5つの接触を多用するタスクにおける視覚・固有受容・力トルク信号を同期したデータセット
  • ベースラインに対して平均タスク成功率を23.2%向上、プラグ挿入では最大80%の成功率を達成

1. Introduction

  • VLAモデル(OpenVLA, π₀など)は視覚・言語入力による意味的理解とゼロショット汎化に優れるが、力センシングを無視している
  • 人間は触覚・固有受容フィードバックを自然に統合して操作戦略を調整する
  • 接触を多用するタスク(挿入、工具使用、組立など)は視覚条件が悪い場合に失敗しやすい
  • 力の要件はタスクフェーズ(繊細な把持、制御された挿入、コンプライアント接触)によって異なる

主な貢献:

  1. 力・視覚・言語・行動を統合した新しいフレームワークと、力認識MoE融合モジュール(FVLMoE)の提案
  2. 接触を多用する操作向けのデータ収集パイプライン・ツール・新データセットの構築
  3. 5つの困難なタスクで最大80%の成功率、ベースラインから23.2%向上
分野概要
Robotic VLA domainRT-1/RT-2、OpenVLA、π₀などのVLAモデルは視覚・言語入力を低レベル制御信号にマッピング。拡散ベースやフローベースなど様々なアーキテクチャが存在するが、大半は視覚・言語のみで触覚フィードバックを扱わない
Contact-rich manipulation domain力センシングを統合し動作安定性・精度を向上させる研究が進展。TLA、Tac-Manなど触覚センシングの活用も。しかし既存手法は静的なモダリティ融合に限られ、動的ルーティングや統一モデリングフレームワークが欠如
MoE architectureMoEはスパースなエキスパートサブネットワーク活性化によりスケーラビリティと効率を向上。LIMOEなどマルチモーダル領域への適用も進むが、力/触覚モダリティの明示的モデリングや接触タスク向けの動的ルーティングは欠如

3. Preliminary

Problem Formulation:

  • 時刻 での観測:
    • , : ベースカメラ・ハンドカメラの視覚入力
    • : 固有受容状態(TCP位置・姿勢・グリッパー幅)
    • : 外部力トルク(TCPに作用する推定外部レンチ、力3軸+モーメント3軸)
  • 言語指示 が与えられ、行動チャンク を出力するポリシー を学習

MoE Architecture:

  • 個のエキスパートネットワーク とゲーティングネットワーク で構成
  • 入力トークン に対し、ゲーティングネットワークが 個(通常 or )のエキスパートを選択
  • 出力:

4. ForceVLA

4.1 Overview:

  • π₀フレームワークをベースに、視覚・言語・固有受容・6軸力フィードバックを統合
  • Conditional Flow Matchingモデルで行動を生成
  • SigLIPベースの視覚言語モデル(PaliGemmaベース)で視覚入力と指示をエンコード
  • FVLMoEが力統合の中核モジュール

4.2. FVLMoE Architecture

Input Mapping for Multiple Modalities:

  • 力モダリティはVLMが視覚・言語を処理した後に導入(実験により決定)
  • VL特徴量 と、線形投影された力トークン を連結
  • 入力:

Multimodal Routing and Fusion Computation:

  • エンコーダ層(マルチヘッド自己注意 + FFN)で全トークンを共同処理
  • スパースMoE層: 4つのエキスパートMLP、Top-1ルーティング
  • 残差接続で融合特徴量 を生成

Injecting Fused Features into the Action Flow Head:

  • FVLMoE出力の最後の トークン を抽出
  • 固有受容状態とノイズ付き行動軌道から得た と要素ごとに加算
  • フローベースのデノイジングモデルを誘導

4.3. Datasets

ForceVLA-Data:

  • Flexiv Rizon 7-DOFロボットアーム + Dahuanアダプティブグリッパー使用
  • カメラ構成:
    • 固定第三者視点: RealSense D435 (1280x720, 30 FPS)
    • 手首マウント: RealSense D415 (640x480, 30 FPS)
  • Quest3 VRインターフェースによるテレオペレーションでデータ収集
  • 5人のエキスパートオペレーターが5つの接触タスクを実施:
    1. Bottle pumping
    2. Plug insertion
    3. USB drive insertion
    4. Whiteboard wiping
    5. Cucumber peeling
  • 計244軌道、14万同期タイムステップ
  • 画像は480x640にリサイズ・正規化、行動はTCPポーズとグリッパー幅で表現

5. Experiments

5.1. Experimental Setups

タスク:

タスク物理的課題
Bottle Pumping正確な垂直押し込み
Plug Insertion正確なアライメントと力制御された挿入
USB Drive Insertion正確なアライメントと力制御された挿入
Whiteboard Wiping滑らかな軌道制御と表面接触
Cucumber Peeling連続的な表面接触中の制御された力の適用・維持

評価:

  • 各タスク約50のエキスパートデモで学習
  • 挿入・ポンピング: 20試行、ホワイトボード: 10試行、きゅうり: 15試行×15ストローク
  • ベースライン: π₀-base w/o F, π₀-base w/ F, π₀-fast w/o F, π₀-fast w/ F

5.2. Main Results

Overall Performance:

  • ForceVLA: 5タスク平均成功率 60.5%
  • π₀-base w/o F: 37.3% → ForceVLAで 23.2%向上

Cucumber Peeling:

モデル平均剥き長さ完全剥きに必要な最小ストローク数
π₀-base w/o F10.27 cm14
π₀-base w/ F13.17 cm10
ForceVLA14.12 cm7

FVLMoEの効果:

  • π₀-base に力を直接入力: 37.3% → 40.2%(+2.9%)
  • ForceVLAのFVLMoE融合: 60.5% → 適切な融合戦略が重要

π₀-base vs π₀-fast:

  • π₀-baseが全体的に優れた性能
  • π₀-fastは力入力追加で性能低下(31.0% → 14.2%): コンパクトなトークン空間が未学習の力トークンにより破壊される

5.3. Model Generalization

5つの汎化実験設定:

  1. Object Gen. 1: ボトルポンピングで異なるボトル種類
  2. Object Gen. 2: プラグ挿入で異なるプラグ種類
  3. Height Gen.: 初期ボトル高さの変更、トルク制限下での成功を評価
  4. Visual Occlusion: プラグ・ソケットの一部を遮蔽
  5. Unstable Socket: ソケット下に物を置き物理的不安定性を導入

結果:

モデルObject Gen. 1Object Gen. 2Height Gen.Visual OcclusionUnstable Socket平均
π₀-base w/o F48%10%67%60%10%39%
π₀-base w/ F32%10%78%30%10%32%
ForceVLA80%55%89%90%40%71%
  • ForceVLAは視覚劣化下で90%の成功率(Visual Occlusion): 視覚以外のマルチモーダルフィードバックへの依存を反映

5.4. Ablation Studies

力融合のアーキテクチャ設計の検証:

モデル成功率
baseline (π₀)45%
linear before VLM55%
MoE before VLM0%
concatenate after VLM60%
ForceVLA (Ours)80%

設計の洞察:

  1. Early fusion(VLM前)は性能低下: 事前学習済みVLMの特徴分布を破壊
  2. Late fusion(VLM後)が有効: 事前学習済み表現を保持しつつ力を導入
  3. FVLMoEによる高度な融合が不可欠: 単純な連結(60%)より、専門化されたルーティングと深いマルチモーダル相互作用(80%)が効果的

5.5. Visualization and Case Studies

USB挿入タスク:

  • 初期アライメント失敗時、ForceVLAはドライブを再配置・再把持して成功
  • ベースラインは失敗動作を繰り返すか過剰な力を適用

Unstable Socketシナリオ:

  • ForceVLAはソケットが移動してもコンプライアント制御を維持し、プラグ姿勢を動的に調整
  • ベースラインはトラッキングを失い失敗

重要な洞察:

  • 力入力を追加するだけではクローズドループ適応を保証しない
  • FVLMoEによる力・視覚・言語の深い融合が、正確で文脈認識型の制御と動的物理条件下でのロバストな汎化を実現

6. Conclusion

主な成果:

  • ForceVLAは高レベルモダリティ(視覚/言語)と低レベル物理センシング(力)の間のギャップを埋めるフレームワーク
  • FVLMoEにより視覚・言語・力モダリティを動的に融合し、きめ細かい文脈認識型制御を実現
  • 5つの困難なタスクで、π₀ベースラインに対し平均成功率を23.2%向上、個別タスクで最大80%の成功率
  • ForceVLA-Dataデータセットの公開

Limitation(制限):

  1. 推定外部レンチの使用: 高精度センサや高度なキャリブレーション技術による改善の余地
  2. 高コストな力トルクセンシング付きロボットでの検証: より一般的・低コストなプラットフォームへの適応性を評価中

References

Appendix A

Data Collection System:

  • ロボットアームに手首マウントカメラと固定第三者視点カメラを装備
  • オペレーターはQuest 3ヘッドセットとコントローラでテレオペレーション
  • ロボットインターフェース、センサストリーム同期、VR通信を管理するソフトウェアを使用

Appendix B

Training Details:

  • 8×NVIDIA RTX 4090 GPU (各24GB VRAM)、64物理CPUコア、251GB RAM
  • Adam最適化(β₁=0.9, β₂=0.95)、ピーク学習率 2.5×10⁻⁵ → 2.5×10⁻⁶(30,000ステップ)
  • マルチタスク学習: 2 GPU、グローバルバッチサイズ16、勾配累積で実効2048、約12時間で30,000ステップ
  • シングルタスク学習: 1 GPU、約9時間で10,000ステップ
  • bfloat16精度、勾配クリッピング(||∇||=1.0)

Appendix C

Router Analysis:

  • 各トークンのエキスパート選択確率分布を分析
  • タスクごとに異なるエキスパート利用パターン:
    • Insert plug, Peel cucumber: 明確な時間的専門化(特定フェーズで特定エキスパートが支配的)
    • Wipe board: 実行全体を通じて単一エキスパートを一貫して選好
  • Expert 0: 複数タスクで約半数のトークンを処理 → 汎用エキスパートとして機能(マルチモダリティ融合やルーチン制御プリミティブを担当)
  • Expert 1, Expert 3: より選択的・フェーズ特化型の活性化

Appendix D

Multi-task Evaluation:

モデルPump BottleInsert PlugInsert USBWipe Board平均
π₀-fast w/o F0%0%0%0%0%
π₀-fast w/ F0%0%0%0%0%
π₀-base w/o F20%0%0%0%5%
π₀-base w/ F50%100%10%10%42.5%
ForceVLA80%100%10%80%67.5%
  • π₀-fast系は多様な同時学習に失敗(0%)
  • ForceVLAは最高の平均成功率67.5%を達成し、複数タスクの同時スキル学習能力を実証

Appendix E

Real-world Experiments Visualization:

  • 各タスク(Pump Bottle, Insert USB, Wipe Board, Insert Plug)と汎化設定(Object Gen., Visual Occlusion, Unstable Socket)のキーフレームを可視化
  • ベースラインの失敗事例とForceVLAの成功事例を対比
  • 接触ダイナミクスに応じた行動適応(リトライ、姿勢調整)により、最終的にタスク完了に到達する様子を示す