力情報を扱うVLAモデルのサーベイ

模倣学習（デモデータからの追加学習）前提の力情報を扱うVLAモデルについて、関連文献をサーベイし、力のセンシング・VLAモデルの力拡張方法・制御方式の観点から整理します。

VLA / VTLAモデルとは?

VLAモデル: 視覚・言語・関節状態を入力し、関節位置を出力するマルチモーダル模倣学習モデル
VTLAモデル: VLAの入力やアクションにトルク・触覚画像などの**力情報（Tactile）**を追加したものと定義 [^1]

[^1]: ACTのようなVAモデル（言語なし）の拡張も含めて本稿ではVTLAと総称する

	VLA	VTLA
入力	視覚・言語・関節位置/速度	+ 関節トルク / 触覚
出力	関節位置	+ 関節トルク（任意）

なぜ力情報が必要か?

従来のVLAモデルの模倣学習・fine-tuneは視覚・位置情報のみに依存しており、以下の課題を抱えています。

データ収集時

位置制御テレオペ（遠隔操作）では力のフィードバックがなく、触覚に依存しないポリシーになりがち [8]
テレオペは非効率（ズッキーニ皮剥きではFBありの場合は ~5分に対して ~13分）[10]

観測データ（入力）

接触リッチなタスクの成功率が極めて低い — 充電器挿入 0% [7]、柔らかい物体(食品等)の把持 13% [8]、5タスク平均 37% [1]
視覚だけでは物体の物理特性がわからない — 硬さ・力の判別はランダム推測と同等（各50%）[11]
視覚が劣化すると操作不能 — 暗環境でタスク失敗 [9] / 視覚遮蔽下のプラグ挿入 60% [1]

アクション（出力）

力加減ができず物体を破損 — 位置制御のみの皮むきで**~20N**（一部40N超）を印加 [10]
副詞（softly, hard）で力加減を言語指示しても加減不能 [8]

VTLAモデルでは、これらの課題に対して以下のように対処できると文献では報告されています。

データ収集時

バイラテラル制御（力の双方向伝達）でリーダーの操作者がフォロワーの触覚をFBにより感じながら動作を収集ができる

観測データ（入力）

視覚だけではわからない物体特性の情報が得られる

把持の精度・滑らかさが向上 — 触覚入力で把持成功率が向上（75.0%→96.9%）、完了時間も 24% 削減 [4]
タスク成否・物体特性を判断 — トルク変化で接触失敗を検知し自律リトライ（ボタン押し 5→10/20）[7] / 触覚で硬さ・力を判別（硬さ75%・力90%）[11]
視覚に依存しない操作 — 遮蔽下のプラグ挿入（60%→90%）[1] / 暗環境でもペグ挿入に成功（VLAは失敗）[9]

アクション（出力）

トルクを出力することで、過大な力を抑制するなどの力加減が可能になる

過大な力を抑制 — 皮むき時の接触力を抑制（~20N→**~9N**）、成功率向上（55%→85%）[10]
力の時間的変化パターンの理解 — 将来トルクを補助タスクとして(=制御には不使用) 予測し、力応答の因果関係を学習 [7]

言語指示

また、力加減を自然言語で指示できる

副詞に応じた力の出し分けを学習（「softly」→0.5N / 「hard」→2.57N）。未学習の副詞の汎化も達成（「harder」→2.94N）[8]

研究	カメラ	力センシング	ベース	力の入力方法	出力	制御
ForceVLA [1]	RGB×2	③ 内蔵推定値(6軸)	π₀	②-a AE側 (MoE)	位置	① 位置制御
OmniVTLA [4]	RGB×2	②+③ 触覚画像+トルクセンサ	π₀	① VLM側 (Enc有)	位置	① 位置制御
Tactile-VLA [8]	RGB	③ トルクセンサ	π₀	① VLM側 (Enc有)	位置+目標力	②-a 力補正付き
TA-VLA [7]	RGB×3	① 関節トルク	π₀	②-b AE側 (MLP)	位置+将来トルク	① 位置制御
VTLA [9]	RGB×1	② 触覚画像	Qwen2-VL	① VLM側 (Enc有)	位置	① 位置制御
ForceMimic [10]	点群	③ トルクセンサ	拡散ポリシー	—	位置+6軸力	②-b ハイブリッド
VLA-Touch [11]	RGB×2	② 触覚画像	RDT-1B	① VLM側 (Enc無 [^2])	位置	① 位置制御
Bi-ACT/LAT [2][3]	RGB×2	① 関節トルク	ACT	②-c 直接結合	角度+角速度+トルク	②-b ハイブリッド

力情報のセンシング

① 関節トルク（モーターからトルクを直接取得 or 推定）

モーター電流や外乱オブザーバからトルクを推定。追加HW不要 TA-VLA [7]（τ = k_t · i；k_t: トルク定数, i: 電流）、Bi-ACT/LAT [2]（外乱オブザーバにより実トルク推定）

利点: 低コスト・外部センサ不要で導入が容易
欠点: ノイズ・熱ドリフトの影響 / 接触位置は得られない

② 触覚画像（外部の接触センサから2D画像化）

![][image1]![][image2]

(左図: GelSight Mini) (右図: VTLA [9] GelStereo で取得した触覚画像)

接触面の変形を画像データとして取得（GelSight 等） OmniVTLA [4]（GelSight）、VTLA [9]（GelStereo×2）、VLA-Touch [11]（GelSight Mini）

利点: 高空間解像度で接触状態を詳細に把握
欠点: 低時間解像度（20–30 Hz）/ コスト・摩耗・形状制約

③ トルクセンサ（外部センサから値を取得）

力・トルクの数値をセンサで直接取得 ForceVLA [1]（Flexivの内蔵推定値）、ForceMimic [10]（外付6軸実測）、Tactile-VLA [8]（法線+せん断力）、OmniVTLA [4]（Paxini）

利点: 高時間解像度（~1 kHz）・6DoF（6自由度）
欠点: 専用センサが必要 / 高コスト / 推定値は精度に限界

モデルのアーキテクチャ

サーベイ対象の多くは π₀ や ACT 等の既存モデルを拡張し、力情報の入出力を追加している。以下ではベースとなる π₀ と ACT の構造を示す。

π₀（Physical Intelligence, 2024）[5]

コンポーネント	役割	詳細
エンコーダ (SigLiP)	画像Enc	RGB画像 → トークン列に変換
VLM (PaliGemma 3B)	理解	画像トークン+言語指示を統合し「何をすべきか」を理解
Action Expert	デコーダ	300M param, Flow Matching。VLM出力を条件にH=50ステップのアクションチャンクを生成

ACT（Action Chunking with Transformers）[6]

VAモデル

コンポーネント	役割	詳細
エンコーダ (ResNet18)	画像Enc	RGB画像（ACT: 4枚, Bi-ACT: 2枚）を特徴マップに変換
CVAE（学習時のみ）	潜在変数推論	人間のデモには「同じ状況でも異なる軌道を取る」ばらつきがあるため、それを潜在変数 z で吸収。推論時は z=0 に固定
Transformer Decoder	アクション生成	画像特徴・関節状態・潜在変数 z から、次の k ステップ分の関節位置をまとめて予測（アクションチャンク）。重複するチャンクは指数加重平均で結合し、動きをなめらかにする

力情報の注入方法

① VLM側: 力覚データ（触覚画像やセンサ値）をトークン化しVLMへ入力

採用: OmniVTLA [4] / Tactile-VLA [8] / VTLA [9]
※ VLA-Touch [11] は触覚を言語化（VLA未改変）

② デコーダ側: Action Expert 周辺で力を融合 — 両研究とも複数手法を比較し以下が最良

②-a ForceVLA [1]: FVLMoE — VLM出力トークンと推定外力(6軸)を4エキスパートMLPで選択的に融合
②-b TA-VLA [7]: DePost — 関節トルク履歴をMLPで1トークンに集約しAEの状態入力 q_t の前に追加
- π₀のAE入力は [q_t] の1トークン。DePostは [MLP(τ), q_t] の2トークンになるが、q_t自体は変えないので事前学習パターンの崩れが小さい
②-c TA-VLA [7]: DePre — q_tのゼロパディング次元にトルクを埋め込み1トークンのまま入力
- q_tの中身自体が変わるため②-bより性能低下

②-b: トルクは接触の瞬間に急変するため、1フレームだけでは変化の傾向がわからない → 過去数フレーム分の履歴を使いたい

入力方法	結果
各フレームを別々のトークンとして入力	性能低下
履歴全体を MLP で1トークンに集約	最良

なぜ? トークン数が増えると、π₀ が事前学習で覚えた入力パターンが崩れてしまう。情報が多少失われても1トークンにまとめた方がよい

力情報の注入方法による性能の比較

性能順

TA-VLA [7]: ②-b > ②-c > ①
ForceVLA [1]: ②-a(FVLMoE) 80% > ②-a'(VLM出力と力のconcat) 60% > ① 55% > π₀ 45%

①でも改善はあるが、②のようにデコーダ側でMoE/MLP等により力情報を融合させる程、性能が高くなる傾向がある

ForceVLA [1] — プラグ挿入タスク（精密なアライメント+力制御）

融合方式	成功率
ベースライン（π₀）	45%
① VLM前にlinear — 力を線形射影しVLM入力に追加	55%
VLM後にconcat — 力トークンをVLM出力に連結しAE入力へ	60%
②-a FVLMoE — 4エキスパートMLP + Top-1ルーティングで動的融合	80%

TA-VLA [7] — ボタン押し＝接触検知+押下、充電器挿入＝精密アライメント+力制御

融合方式	ボタン押し	充電器挿入
π₀（ベースライン）	5/20	0/20
① Enc（エンコーダ側）	7/20	8/20
DePre（デコーダ前段）	8/20	11/20
②-b DePost（デコーダ後段）	10/20	12/20

制御方式

① 位置出力 → 位置制御

力情報は入力のみで活用、出力は目標姿勢のみ ForceVLA [1] / OmniVTLA [4] / VTLA [9] / VLA-Touch [11] で採用されている

TA-VLA [7] では、位置に加え将来トルク τ̂ も同時に予測させることで、力応答の因果関係を学習

② 位置+力出力（Appendix参照）

位置だけでなく、力情報も推論し、直接制御に用いたり、制御の補正に用いています.

②-a Tactile-VLA [8]

F_target を予測し力誤差 ΔF が閾値超過時のみ位置補正

VLA が位置に加え目標力 F_target を出力する。力誤差 ΔF = F_tgt - F_meas が閾値 τ_th を超えたときのみ位置を補正する（P_hyb = P_tgt + K·ΔF）

②-b ForceMimic [10]

位置と6軸力を同時に出力する。予測力が小さいとき（F̂ < 6N）は位置制御のみ、大きくなると軸ごとに位置と力を分けて制御する
1kHz の F/T（力/トルク）センサを用いるため高精度な力制御が可能。皮むき時の接触力を ~20N → ~9N に抑制し成功率が向上（55%→85%）

②-b Bi-ACT/LAT [2]

角度+角速度+トルクを出力しバイラテラル制御（位置追従+作用反作用）で駆動 TODO

まとめ

VLAモデルに力情報を統合する VTLA 研究を、力のセンシング方法・モデルのアーキテクチャ・制御方式の3つの観点で整理しました。

残された課題としては、

データ収集: テレオペでの力フィードバック欠如により触覚に依存しない動作になりがち [8] [10]。インターネット動画に力データが存在しない点もスケーラビリティを制約する [10]
学習: 力トークンの追加がVLMやデコーダの事前学習パターンを崩す場合がある [1] [7]。注入位置・トークン数の設計が性能に直結する
推論: 力センサの高サンプリングレート（100Hz–1kHz）に対しモデル推論が低速（8–20Hz）で、高周波情報を活用しきれていない [8] [11]。モータ電流ベースのトルク推定では熱ドリフトによる長時間精度低下も指摘されている [7]
評価: 各研究が独自のタスク・HW・ベースラインで評価しており、横断的な比較が困難な状況にある

Appendix

各研究の評価タスク一覧

研究	主な評価タスク
ForceVLA [1]	ボトルポンピング / プラグ挿入 / USB挿入 / ボード拭き / きゅうり皮むき（＋汎化: 物体・高さ・視覚遮蔽）
Bi-ACT/LAT [2]	ピック&プレース（多様形状・重量） / 引き出し収納
OmniVTLA [4]	ピック&プレース（グリッパー: 缶・ボトル等 / 多指ハンド: ボトル・牛乳パック）
TA-VLA [7]	ボタン押し / 充電器挿入 / ボトル移動 / 液体注ぎ / 積み重ね / 押し込み / 引き出し開け / ドアハンドル回転
Tactile-VLA [8]	USB・充電器挿抜 / 卓上物体把持（12種） / ボード拭き（＋未学習の黒板拭き）
VTLA [9]	ペグイン穴挿入（5形状 × 0.6–2.0mm クリアランス、Sim2Real）
ForceMimic [10]	ズッキーニ皮むき
VLA-Touch [11]	カップ操作（水の有無判定+配置） / 拭き取り（スポンジ選択+拭き） / 皮むき（熟度判定+皮むき）

傾向: 挿入・把持・皮むき等の接触リッチなタスクが中心。各研究が独自タスクで評価しており横断的比較が困難 — 標準ベンチマークの整備が課題。

参考文献

[1] J. Yu et al., "ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation." 2025. [2] T. Buamanee, M. Kobayashi, Y. Uranishi, and H. Takemura, "Bi-ACT: Bilateral Control-Based Imitation Learning via Action Chunking with Transformer." 2024. [3] T. Kobayashi, M. Kobayashi, T. Buamanee, and Y. Uranishi, "Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers." 2025. [4] Z. Cheng et al., "OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing." 2025. [5] K. Black et al., "π₀: A Vision-Language-Action Flow Model for General Robot Control." 2024. [6] T. Z. Zhao, V. Kumar, S. Levine, and C. Finn, "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware." 2023. [7] Z. Zhang et al., "TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models." 2025. [8] J. Huang, S. Wang, F. Lin, Y. Hu, C. Wen, and Y. Gao, "Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization." 2025. [9] C. Zhang, P. Hao, X. Cao, X. Hao, S. Cui, and S. Wang, "VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation." 2025. [10] W. Liu, J. Wang, Y. Wang, W. Wang, and C. Lu, "ForceMimic: Force-Centric Imitation Learning with Force-Motion Capture System for Contact-Rich Manipulation." 2025. [11] J. Bi, K. Y. Ma, C. Hao, M. Z. Shou, and H. Soh, "VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback." 2025.