ForceVLA: Towards VLA-based Force-aware Robot Control

Abstract

VLA (Vision-Language-Action) モデルは、視覚・言語入力に依存するため、接触を多用するタスク（特に視覚的オクルージョンや動的不確実性がある場合）では困難を抱える
ForceVLA: 外部力センシングをVLAシステムの一等モダリティとして扱う新しいエンドツーエンドマニピュレーションフレームワーク
FVLMoE: 事前学習済みの視覚言語埋め込みとリアルタイムの6軸力フィードバックを動的に統合する力認識 Mixture-of-Experts 融合モジュール
ForceVLA-Data: 5つの接触を多用するタスクにおける視覚・固有受容・力トルク信号を同期したデータセット
ベースラインに対して平均タスク成功率を23.2%向上、プラグ挿入では最大80%の成功率を達成

1. Introduction

VLAモデル（OpenVLA, π₀など）は視覚・言語入力による意味的理解とゼロショット汎化に優れるが、力センシングを無視している
人間は触覚・固有受容フィードバックを自然に統合して操作戦略を調整する
接触を多用するタスク（挿入、工具使用、組立など）は視覚条件が悪い場合に失敗しやすい
力の要件はタスクフェーズ（繊細な把持、制御された挿入、コンプライアント接触）によって異なる

主な貢献:

力・視覚・言語・行動を統合した新しいフレームワークと、力認識MoE融合モジュール（FVLMoE）の提案
接触を多用する操作向けのデータ収集パイプライン・ツール・新データセットの構築
5つの困難なタスクで最大80%の成功率、ベースラインから23.2%向上

分野	概要
Robotic VLA domain	RT-1/RT-2、OpenVLA、π₀などのVLAモデルは視覚・言語入力を低レベル制御信号にマッピング。拡散ベースやフローベースなど様々なアーキテクチャが存在するが、大半は視覚・言語のみで触覚フィードバックを扱わない
Contact-rich manipulation domain	力センシングを統合し動作安定性・精度を向上させる研究が進展。TLA、Tac-Manなど触覚センシングの活用も。しかし既存手法は静的なモダリティ融合に限られ、動的ルーティングや統一モデリングフレームワークが欠如
MoE architecture	MoEはスパースなエキスパートサブネットワーク活性化によりスケーラビリティと効率を向上。LIMOEなどマルチモーダル領域への適用も進むが、力/触覚モダリティの明示的モデリングや接触タスク向けの動的ルーティングは欠如

3. Preliminary

Problem Formulation:

時刻 $t$ での観測: $O_{t} = {V_{t}^{b}, V_{t}^{h}, s_{t}, f_{t}}$
- $V_{t}^{b}$ , $V_{t}^{h}$ : ベースカメラ・ハンドカメラの視覚入力
- $s_{t} \in R^{7}$ : 固有受容状態（TCP位置・姿勢・グリッパー幅）
- $f_{t} \in R^{6}$ : 外部力トルク（TCPに作用する推定外部レンチ、力3軸+モーメント3軸）
言語指示 $L$ が与えられ、行動チャンク $A_{t}$ を出力するポリシー $π (A_{t} ∣ O_{t}, L)$ を学習

MoE Architecture:

$N$ 個のエキスパートネットワーク ${E_{i}}$ とゲーティングネットワーク $G$ で構成
入力トークン $x$ に対し、ゲーティングネットワークが $k$ 個（通常 $k = 1$ or $2$ ）のエキスパートを選択
出力: $y (x) = \sum_{i \in TopK (G (x))} g_{i} (x) E_{i} (x)$

4. ForceVLA

4.1 Overview:

π₀フレームワークをベースに、視覚・言語・固有受容・6軸力フィードバックを統合
Conditional Flow Matchingモデルで行動を生成
SigLIPベースの視覚言語モデル（PaliGemmaベース）で視覚入力と指示をエンコード
FVLMoEが力統合の中核モジュール

4.2. FVLMoE Architecture

Input Mapping for Multiple Modalities:

力モダリティはVLMが視覚・言語を処理した後に導入（実験により決定）
VL特徴量 $E_{V L} \in R^{N_{V L} \times D_{m o d e l}}$ と、線形投影された力トークン $E_{F} = ϕ_{F} (f_{r a w}) \in R^{D_{m o d e l}}$ を連結
入力: $E_{in} = [E_{V L}; E_{F}]$

Multimodal Routing and Fusion Computation:

エンコーダ層（マルチヘッド自己注意 + FFN）で全トークンを共同処理
スパースMoE層: 4つのエキスパートMLP、Top-1ルーティング
残差接続で融合特徴量 $E_{f u se d}$ を生成

Injecting Fused Features into the Action Flow Head:

FVLMoE出力の最後の $H_{a c t i o n}$ トークン $G_{F V L M o E}$ を抽出
固有受容状態とノイズ付き行動軌道から得た $S_{s u f f i x}$ と要素ごとに加算
フローベースのデノイジングモデルを誘導

4.3. Datasets

ForceVLA-Data:

Flexiv Rizon 7-DOFロボットアーム + Dahuanアダプティブグリッパー使用
カメラ構成:
- 固定第三者視点: RealSense D435 (1280x720, 30 FPS)
- 手首マウント: RealSense D415 (640x480, 30 FPS)
Quest3 VRインターフェースによるテレオペレーションでデータ収集
5人のエキスパートオペレーターが5つの接触タスクを実施:
1. Bottle pumping
2. Plug insertion
3. USB drive insertion
4. Whiteboard wiping
5. Cucumber peeling
計244軌道、14万同期タイムステップ
画像は480x640にリサイズ・正規化、行動はTCPポーズとグリッパー幅で表現

5. Experiments

5.1. Experimental Setups

タスク:

タスク	物理的課題
Bottle Pumping	正確な垂直押し込み
Plug Insertion	正確なアライメントと力制御された挿入
USB Drive Insertion	正確なアライメントと力制御された挿入
Whiteboard Wiping	滑らかな軌道制御と表面接触
Cucumber Peeling	連続的な表面接触中の制御された力の適用・維持

評価:

各タスク約50のエキスパートデモで学習
挿入・ポンピング: 20試行、ホワイトボード: 10試行、きゅうり: 15試行×15ストローク
ベースライン: π₀-base w/o F, π₀-base w/ F, π₀-fast w/o F, π₀-fast w/ F

5.2. Main Results

Overall Performance:

ForceVLA: 5タスク平均成功率 60.5%
π₀-base w/o F: 37.3% → ForceVLAで 23.2%向上

Cucumber Peeling:

モデル	平均剥き長さ	完全剥きに必要な最小ストローク数
π₀-base w/o F	10.27 cm	14
π₀-base w/ F	13.17 cm	10
ForceVLA	14.12 cm	7

FVLMoEの効果:

π₀-base に力を直接入力: 37.3% → 40.2%（+2.9%）
ForceVLAのFVLMoE融合: 60.5% → 適切な融合戦略が重要

π₀-base vs π₀-fast:

π₀-baseが全体的に優れた性能
π₀-fastは力入力追加で性能低下（31.0% → 14.2%）: コンパクトなトークン空間が未学習の力トークンにより破壊される

5.3. Model Generalization

5つの汎化実験設定:

Object Gen. 1: ボトルポンピングで異なるボトル種類
Object Gen. 2: プラグ挿入で異なるプラグ種類
Height Gen.: 初期ボトル高さの変更、トルク制限下での成功を評価
Visual Occlusion: プラグ・ソケットの一部を遮蔽
Unstable Socket: ソケット下に物を置き物理的不安定性を導入

結果:

モデル	Object Gen. 1	Object Gen. 2	Height Gen.	Visual Occlusion	Unstable Socket	平均
π₀-base w/o F	48%	10%	67%	60%	10%	39%
π₀-base w/ F	32%	10%	78%	30%	10%	32%
ForceVLA	80%	55%	89%	90%	40%	71%

ForceVLAは視覚劣化下で90%の成功率（Visual Occlusion）: 視覚以外のマルチモーダルフィードバックへの依存を反映

5.4. Ablation Studies

力融合のアーキテクチャ設計の検証:

モデル	成功率
baseline (π₀)	45%
linear before VLM	55%
MoE before VLM	0%
concatenate after VLM	60%
ForceVLA (Ours)	80%

設計の洞察:

Early fusion（VLM前）は性能低下: 事前学習済みVLMの特徴分布を破壊
Late fusion（VLM後）が有効: 事前学習済み表現を保持しつつ力を導入
FVLMoEによる高度な融合が不可欠: 単純な連結（60%）より、専門化されたルーティングと深いマルチモーダル相互作用（80%）が効果的

5.5. Visualization and Case Studies

USB挿入タスク:

初期アライメント失敗時、ForceVLAはドライブを再配置・再把持して成功
ベースラインは失敗動作を繰り返すか過剰な力を適用

Unstable Socketシナリオ:

ForceVLAはソケットが移動してもコンプライアント制御を維持し、プラグ姿勢を動的に調整
ベースラインはトラッキングを失い失敗

重要な洞察:

力入力を追加するだけではクローズドループ適応を保証しない
FVLMoEによる力・視覚・言語の深い融合が、正確で文脈認識型の制御と動的物理条件下でのロバストな汎化を実現

6. Conclusion

主な成果:

ForceVLAは高レベルモダリティ（視覚/言語）と低レベル物理センシング（力）の間のギャップを埋めるフレームワーク
FVLMoEにより視覚・言語・力モダリティを動的に融合し、きめ細かい文脈認識型制御を実現
5つの困難なタスクで、π₀ベースラインに対し平均成功率を23.2%向上、個別タスクで最大80%の成功率
ForceVLA-Dataデータセットの公開

Limitation（制限）:

推定外部レンチの使用: 高精度センサや高度なキャリブレーション技術による改善の余地
高コストな力トルクセンシング付きロボットでの検証: より一般的・低コストなプラットフォームへの適応性を評価中

References

Appendix A

Data Collection System:

ロボットアームに手首マウントカメラと固定第三者視点カメラを装備
オペレーターはQuest 3ヘッドセットとコントローラでテレオペレーション
ロボットインターフェース、センサストリーム同期、VR通信を管理するソフトウェアを使用

Appendix B

Training Details:

8×NVIDIA RTX 4090 GPU (各24GB VRAM)、64物理CPUコア、251GB RAM
Adam最適化（β₁=0.9, β₂=0.95）、ピーク学習率 2.5×10⁻⁵ → 2.5×10⁻⁶（30,000ステップ）
マルチタスク学習: 2 GPU、グローバルバッチサイズ16、勾配累積で実効2048、約12時間で30,000ステップ
シングルタスク学習: 1 GPU、約9時間で10,000ステップ
bfloat16精度、勾配クリッピング（||∇||=1.0）

Appendix C

Router Analysis:

各トークンのエキスパート選択確率分布を分析
タスクごとに異なるエキスパート利用パターン:
- Insert plug, Peel cucumber: 明確な時間的専門化（特定フェーズで特定エキスパートが支配的）
- Wipe board: 実行全体を通じて単一エキスパートを一貫して選好
Expert 0: 複数タスクで約半数のトークンを処理 → 汎用エキスパートとして機能（マルチモダリティ融合やルーチン制御プリミティブを担当）
Expert 1, Expert 3: より選択的・フェーズ特化型の活性化

Appendix D

Multi-task Evaluation:

モデル	Pump Bottle	Insert Plug	Insert USB	Wipe Board	平均
π₀-fast w/o F	0%	0%	0%	0%	0%
π₀-fast w/ F	0%	0%	0%	0%	0%
π₀-base w/o F	20%	0%	0%	0%	5%
π₀-base w/ F	50%	100%	10%	10%	42.5%
ForceVLA	80%	100%	10%	80%	67.5%

π₀-fast系は多様な同時学習に失敗（0%）
ForceVLAは最高の平均成功率67.5%を達成し、複数タスクの同時スキル学習能力を実証

Appendix E

Real-world Experiments Visualization:

各タスク（Pump Bottle, Insert USB, Wipe Board, Insert Plug）と汎化設定（Object Gen., Visual Occlusion, Unstable Socket）のキーフレームを可視化
ベースラインの失敗事例とForceVLAの成功事例を対比
接触ダイナミクスに応じた行動適応（リトライ、姿勢調整）により、最終的にタスク完了に到達する様子を示す

Quartz 5

Explorer

ForceVLA: Towards VLA-based Force-aware Robot Control

Abstract

1. Introduction

3. Preliminary

4. ForceVLA

4.2. FVLMoE Architecture

4.3. Datasets

5. Experiments

5.1. Experimental Setups

5.2. Main Results

5.3. Model Generalization

5.4. Ablation Studies

5.5. Visualization and Case Studies

6. Conclusion

References

Appendix A

Appendix B

Appendix C

Appendix D

Appendix E

Graph View

Table of Contents

Quartz 5

Explorer

ForceVLA: Towards VLA-based Force-aware Robot Control

Abstract

1. Introduction

2. Related Works

3. Preliminary

4. ForceVLA

4.2. FVLMoE Architecture

4.3. Datasets

5. Experiments

5.1. Experimental Setups

5.2. Main Results

5.3. Model Generalization

5.4. Ablation Studies

5.5. Visualization and Case Studies

6. Conclusion

References

Appendix A

Appendix B

Appendix C

Appendix D

Appendix E

Graph View

Table of Contents