TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models

Abstract

項目	内容
問題意識	多くのロボット操作タスクはトルクなどの力信号を必要とするが、現在のVLAモデルはこうした物理的フィードバックを統合する能力が欠如している
提案手法	Torque-aware VLAモデルの設計空間を体系的に探索し、既存VLAアーキテクチャへのトルク信号統合戦略を評価
主要発見1	トルクアダプタをエンコーダではなくデコーダに導入する方が一貫して高性能
主要発見2	トルク履歴全体を単一トークンに要約することが最も効果的（デコーダの元の入力パターンを保持するため）
主要発見3	自律運転の予測・計画パラダイムに着想を得て、トルクを補助出力として予測することで性能がさらに向上
成果	接触が多い操作ベンチマークでの広範な実験により知見を検証

1. Introduction

項目	内容
背景	力の手がかりによる物理的相互作用の理解は実世界のロボット操作に不可欠。関節トルクは外部力センサなしでエンドエフェクタの接触ダイナミクスの微妙な変化を反映する
既存手法の限界	VLAモデルは視覚と制御の橋渡しに成功しているが、物理的フィードバックの解釈・活用能力は限定的
研究課題	トルクをVLAアーキテクチャにどう埋め込むか。トルクは固有受容信号であり、画像・言語入力とは構造的に異なり、時間的に変動する
設計空間	(1) いつ（即時vs履歴vs予測）、(2) どこに（エンコーダvsデコーダ）、(3) どのように（単一トークンvs複数トークン）
洞察1	トルク信号はエンコーダではなくデコーダに統合すべき。デコーダは微細な変動に敏感であり、接触シナリオで重要
洞察2	履歴トルク情報は単一フレーム入力より有用だが、複数トークン注入はデコーダの学習済みパターンを乱す。履歴全体を単一トークンにエンコードするのが最適
洞察3	将来のトルクをアクションと共に予測することで、物理的に根拠のある潜在空間を構築できる
貢献	(1) トルク認識VLAの設計空間を提案、(2) デコーダ側・単一トークン履歴が最適と発見、(3) 統合アクション-トルク拡散モデルを導入、(4) 接触が多いタスクで大幅な性能向上を実証

Vision-Language-Action Model

項目	内容
背景	LLMとVLMの成功により、視覚知覚・言語理解・行動生成を組み合わせたVLAモデルが登場
行動生成手法	拡散ポリシーベース（Octo, RDT-1B）、フローマッチングベース（π₀）、自己回帰生成（RT-2）
代表例	Octo/RDT-1B: 拡散ヘッド+Transformerバックボーン、π₀: 条件付きフローマッチングで高頻度アクションシーケンス生成
ハイブリッド	HybridVLA: 拡散と自己回帰を単一モデルで統合

Imitation Learning with Force/Torque

項目	内容
既存研究の傾向	力/トルク信号は精密操作に有用であることが示されているが、多くは追加センサに依存（コスト増・運用制限）
既存手法の限界	力/トルクを視覚・テキストと組み合わせる研究は多くがゼロから訓練し、事前学習VLAの利点を活用できていない
VLA統合の利点	(1) VLAは既に大規模データで訓練済みでクロスモーダル学習基盤がある、(2) モダリティ間で共有特徴表現を学習済みで新モダリティ対応が容易
本研究の位置づけ	事前学習済みVLAにトルク情報を体系的に統合する方法を探索

3. Torques are Good Indicators for End-effector Status

項目	内容
基本概念	エンドエフェクタへの外部接触は運動連鎖全体に機械的応答を誘発し、関節トルクの変動として観測可能
動力学方程式	M(q)q̈ + C(q,q̇)q̇ + G(q) = τ_cmd + τ_ext
ヤコビアンマッピング	τ_ext = J^T(q)F_ext（エンドエフェクタへの外力はヤコビアン転置を通じて関節空間に投影）
実用的意義	関節トルク変動を観測することで、マニピュレータ動力学が正確にモデル化されていればエンドエフェクタに作用する外部レンチを推定可能
結論	関節トルクベクトルは本質的に外部接触情報を含む。これがトルクベースの接触推定、衝突検出、コンプライアント操作の理論的基盤となる

4. Sense What Was: Torques as Observations

項目	内容
概要	トルク信号を追加観測としてVLAフレームワークに統合し、その効果を調査
VLAアーキテクチャ	条件付けエンコーダ（環境知覚）とデノイジングデコーダ（行動生成）で構成
検討事項	(1) どこに統合するか（エンコーダvsデコーダ）、(2) 履歴トルクをどう活用するか

4.1. Where to Embed? Conditioning Encoder vs. Denoising Decoder

統合戦略	説明
Encoder Embedding (Enc)	トルクをアダプタでトークン化し、画像・言語と連結して条件入力に追加
Decoder Pre-Concatenation (DePre)	トルクを関節角度のゼロパディング次元に直接統合し、単一トークンに結合
Decoder Post-Concatenation (DePost)	トルクをアダプタでエンコードし、結果トークンをアクションエキスパートの状態入力に前置

実験結果	内容
優位性	DePost > DePre > Enc（デコーダへの統合が優位）
理由1（入力アライメント）	トルクと関節角度は共に固有受容信号であり、HSIC分析で高い類似性を確認。デコーダでの融合が相関を活用
理由2（デコーダの感度）	エンコーダは粗い特徴を処理する設計、デコーダは微細な変動を捕捉。ノイズ実験でデコーダの方が入力変動に敏感であることを確認
Regarding using torque signals and integrating it into the VLA architecture, we explore two integration ways: integrating τt into the encoder’s inputs to leverage its multi-modality capabilities, or incorporating τt into the decoder alongside 𝒒t to enrich the state representation. Specifically, we evaluate three possible strategies for embedding τt (see Figure 2):

Encoder Embedding (Enc): encode τt via an adapter into a token which is concatenated with {𝑰t1,…,𝑰tn,𝑳t} as an extra conditioning input (Figure 2(a));
Decoder Pre-Concatenation Embedding (DePre): directly integrate τt into the zero-padded dimensions of 𝒒t, concatenating them to form a single combined token (Figure 2(b));
Decoder Post-Concatenation Embedding (DePost): encode τt through an adapter and prepend the resulting token to the action expert’s state inputs (Figure 2(c)).

Specifically, we employ an MLP as the torque adapter. We conducted real-world experiments on two contact-rich tasks using the three different architectures. The results are shown in Table 1, which shows that embedding torque signals into decoder outperforms into encoder, and embedding it to a single token outperforms integrating it to the original proprioceptive state token. The reasons for the result can be summarized as follows.

Task	π0	Enc	DePre	DePost
Button Pushing	5/20	7/20	8/20	10/20
Charger Plugging	0/20	8/20	11/20	12/20

4.2. Torque-History Encoding

項目	内容
動機	言語指示や視覚観測と異なり、トルク信号は接触時に大きく変動。単一フレーム入力では動的パターンを捕捉できない
検討戦略	(1) フレーム単位トークン化（各フレームを別トークンに）、(2) 集約トークン化（履歴全体を単一トークンに）
実験結果	履歴全体を単一トークンとしてデコーダにエンコードするのが最良
理由	複数履歴トークンはデコーダの元の入力パターン完全性を乱す。エンコーダはパターン変更に頑健だが、トルクはデコーダ統合が有利なため、情報損失があっても単一トークンが優位

5. Predict What will Be: Torques as Objectives

項目	内容
動機	現在のVLAポリシーはモダリティを観測としてのみ扱い、ロボット自身の相互作用ダイナミクスを内在化する機会を逃している
着想	自律運転のマルチタスク計画に着想を得て、将来のトルクをアクションと共に予測
効果	この補助タスクがモデルに物理的に根拠のある潜在空間を構築させ、接触が多い操作でより信頼性の高い動作を実現

技術的詳細	内容
統合損失	L_joint(θ) = L_action(θ) + β・L_torque(θ)
実装	単一の線形層でアクションとトルク予測を連結出力し、それぞれの損失で分割
検証結果	予測トルクがグラウンドトゥルース変動と高い一致を示し、将来変化を正確に感知できることを確認
性能向上理由	共同トルク-アクション予測がアクションと結果トルク応答の因果関係を学習させ、接触ダイナミクスの理解を強化

6. Experiment

6.1. Experimental Setup

項目	内容
ハードウェア	Cobot Magic ALOHA（デュアルアーム、各アーム7自由度）、D435深度カメラ3台（両手首、正面）
トルク取得	モータ電流からトルク推定（τ = k_t・i）、外部力センサ不要
ベースライン	ACT、RDT、π₀（公開事前学習重みを使用、同一条件でファインチューニング）
デモ収集	各タスク400デモンストレーション（テレオペレーション）

6.2. Quantitative Results

モデル	接触タスク成功率	通常タスク成功率
ACT	低（0-12/20）	中（12-16/20）
RDT	低（0-10/20）	中（12-17/20）
π₀	低（0-16/20）	中（16-19/20）
π₀+obs	高（11-19/20）	高（16-18/20）
π₀+obj	高（10-19/20）	高（16-17/20）
π₀+obs+obj	最高（15-19/20）	最高（17-19/20）

知見	内容
効果	トルク観測・トルク目的の両方がVLAモデルに有益。組み合わせが最良性能
汎用性	トルク信号は接触タスクだけでなく、一見無関係な通常タスクでも性能向上に寄与

6.3. Visualization

項目	内容
接触タスク	失敗試行時の異常トルク変化を検知し、ロボットが自律的にリトライして成功（ボタン押し、ドアハンドル回転）
通常タスク	高精度でボトル移動、液体注ぎ、積み重ね、押し込み、引き出し開けを実行

6.4. Cross Model

モデル	ボタン押し	充電器挿入	ボトル移動
RDT	4/20	1/20	17/20
RDT+obs+obj	16/20	15/20	19/20

知見	内容
汎化性	トルク観測・目的の統合戦略はπ₀だけでなくRDTにも適用可能で、大幅な性能向上を達成

6.5. Cross Embodiment

項目	内容
実験	ROKAE SRロボットアームで電気自動車充電器挿入タスクを実行
結果	トルクフィードバックで失敗検知後、2回目の試行で成功。異なるロボット構成への汎化能力を実証
意義	トルク認識操作戦略が新しいエンドエフェクタ構成に適応可能

7. Conclusion

項目	内容
分析	関節トルクがエンドエフェクタ状態の効果的な指標であることを分析
最適設計	即時・履歴トルクを単一デコーダトークンとしてエンコードするのが最良結果を達成
新規提案	アクションとトルクを統一拡散損失で共同予測することで性能向上
実証	接触タスク・通常タスクでの実験により、両トルクベース拡張の有効性と汎化性を確認

8. Limitations

限界	内容
トルク推定精度	モータ電流からのトルク推定はモータキャリブレーション、センサノイズ、熱ドリフトの影響を受け、長時間・高負荷タスクで性能低下の可能性
スケーラビリティ	トルク信号は有用だが、触覚センシングや温度など他の物理モダリティへの拡張時のスケーラビリティは不明（特にTransformerの共有トークン予算下で）
今後の課題	より多様な実世界シナリオでの頑健性評価、より豊富なマルチモーダル信号のアライメントと統合の探索

Appendix A

A.1. Additional Visualizations

接触タスク・通常タスクの追加可視化（トルク応答のプロット付き）

A.2. Detailed Wrench-to-Torque Mapping for a 7-DOF Manipulator

完全空間ヤコビアン、7自由度アームの分割、レンチ-トルク投影、準静的簡略化、実装上の注意事項

A.3. Experimental Protocols for Sec. 4.1: Torque-Integration Architectures

各アーキテクチャ比較実験、HSIC実験、デコーダ感度実験の詳細プロトコル

A.4. Experimental Protocols for Sec. 4.2: Torque-History Encoding

履歴エンコーディング比較実験、入力パターン完全性実験の詳細

A.5. Implementation of the Joint Action-Torque Diffusion Objective (Sec. 5)

アクション-トルク拡散の実装詳細（プロジェクション層の拡張、重み初期化戦略）

A.6. Additional Details in Sec. 6

実験セットアップ詳細（GPU、訓練ステップ、LoRA使用など）
定量結果詳細（βの設定値）
クロスモデル実験のRDT+obs+objアーキテクチャ
クロスエンボディメント実験詳細（急速充電・低速充電コネクタ挿入）

A.7. Architectural Specifications of Baseline VLA Models (π₀ and RDT)

π₀: PaliGemma 3Bバックボーン上に300Mアクションエキスパート、条件付きフローマッチング使用
RDT: 1Bパラメータの拡散Transformer、128次元統一観測・行動空間

A.8. System Efficiency

訓練・推論時間の比較：提案設計は効率への影響が軽微

A.9. Ablation Studies for Hyperparameter β

π₀+obj: β=1が最適、π₀+obs+obj: β=0.1が最適（新導入コンポーネントのバランス）

A.10. Ablation Studies for Torque Aggregation Methods

MLP > RNN > Attention（限られたファインチューニングデータでは単純なMLPが最適）

A.11. Torque Signal Interpretation and Preprocessing

全7関節のトルク信号を使用、訓練データ統計で正規化

Quartz 5

Explorer

TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models

Abstract

1. Introduction

Vision-Language-Action Model

Imitation Learning with Force/Torque

3. Torques are Good Indicators for End-effector Status

4. Sense What Was: Torques as Observations

4.1. Where to Embed? Conditioning Encoder vs. Denoising Decoder

4.2. Torque-History Encoding

5. Predict What will Be: Torques as Objectives

6. Experiment

6.1. Experimental Setup

6.2. Quantitative Results

6.3. Visualization

6.4. Cross Model

6.5. Cross Embodiment

7. Conclusion

8. Limitations

Appendix A

A.1. Additional Visualizations

A.2. Detailed Wrench-to-Torque Mapping for a 7-DOF Manipulator

A.3. Experimental Protocols for Sec. 4.1: Torque-Integration Architectures

A.4. Experimental Protocols for Sec. 4.2: Torque-History Encoding

A.5. Implementation of the Joint Action-Torque Diffusion Objective (Sec. 5)

A.6. Additional Details in Sec. 6

A.7. Architectural Specifications of Baseline VLA Models (π₀ and RDT)

A.8. System Efficiency

A.9. Ablation Studies for Hyperparameter β

A.10. Ablation Studies for Torque Aggregation Methods

A.11. Torque Signal Interpretation and Preprocessing

Graph View

Table of Contents

Quartz 5

Explorer

TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models

Abstract

1. Introduction

2. Related Work

Vision-Language-Action Model

Imitation Learning with Force/Torque

3. Torques are Good Indicators for End-effector Status

4. Sense What Was: Torques as Observations

4.1. Where to Embed? Conditioning Encoder vs. Denoising Decoder

4.2. Torque-History Encoding

5. Predict What will Be: Torques as Objectives

6. Experiment

6.1. Experimental Setup

6.2. Quantitative Results

6.3. Visualization

6.4. Cross Model

6.5. Cross Embodiment

7. Conclusion

8. Limitations

Appendix A

A.1. Additional Visualizations

A.2. Detailed Wrench-to-Torque Mapping for a 7-DOF Manipulator

A.3. Experimental Protocols for Sec. 4.1: Torque-Integration Architectures

A.4. Experimental Protocols for Sec. 4.2: Torque-History Encoding

A.5. Implementation of the Joint Action-Torque Diffusion Objective (Sec. 5)

A.6. Additional Details in Sec. 6

A.7. Architectural Specifications of Baseline VLA Models (π₀ and RDT)

A.8. System Efficiency

A.9. Ablation Studies for Hyperparameter β

A.10. Ablation Studies for Torque Aggregation Methods

A.11. Torque Signal Interpretation and Preprocessing

Graph View

Table of Contents