VLA への力情報の注入方法

VTLA（力情報を扱う VLA）で、トルク・触覚などの力モーダルをモデルのどこに・どう注入するかの設計空間。注入位置がデコーダ側に近いほど、また融合機構が高度（MoE/MLP）なほど性能が高い傾向がサーベイで確認されている。

注入位置の分類

① VLM 側: 力データをトークン化し VLM へ入力。採用: OmniVTLA / Tactile-VLA / VTLA。VLA-Touch は触覚を言語化して VLA 本体を未改変のまま使う変種。
②-a AE 側 (MoE): ForceVLA の FVLMoE — VLM 出力トークンと推定外力(6軸)を4エキスパート MLP + Top-1 ルーティングで動的融合。
②-b AE 側 (MLP): TA-VLA の DePost — 関節トルク履歴を MLP で1トークンに集約し、AE の状態入力 q_t の前に追加（[MLP(τ), q_t]）。q_t 自体は変えないので π₀ の事前学習パターンの崩れが小さい。
②-c 直接結合: TA-VLA の DePre — q_t のゼロパディング次元にトルクを埋め込み1トークンのまま。q_t の中身が変わるため ②-b より性能低下。LAT も直接結合。

トルクは接触の瞬間に急変するため、1フレームでは傾向が読めず過去数フレームの履歴が要る。だが各フレームを別トークンにすると π₀ が事前学習で覚えた入力パターンが崩れ性能低下。情報が多少落ちても履歴全体を MLP で1トークンに集約するのが最良。

ForceVLA（プラグ挿入）:

TA-VLA（ボタン押し / 充電器挿入）:

総じて TA-VLA: ②-b > ②-c > ①、ForceVLA: ②-a > concat > ① > π₀。デコーダ側で MoE/MLP 融合するほど高性能。