VLA への力情報の注入方法

VTLA(力情報を扱う VLA)で、トルク・触覚などの力モーダルをモデルのどこに・どう注入するかの設計空間。注入位置がデコーダ側に近いほど、また融合機構が高度(MoE/MLP)なほど性能が高い傾向がサーベイで確認されている。

注入位置の分類

  • ① VLM 側: 力データをトークン化し VLM へ入力。採用: OmniVTLA / Tactile-VLA / VTLA。VLA-Touch は触覚を言語化して VLA 本体を未改変のまま使う変種。
  • ②-a AE 側 (MoE): ForceVLAFVLMoE — VLM 出力トークンと推定外力(6軸)を4エキスパート MLP + Top-1 ルーティングで動的融合。
  • ②-b AE 側 (MLP): TA-VLADePost — 関節トルク履歴を MLP で1トークンに集約し、AE の状態入力 q_t のに追加([MLP(τ), q_t])。q_t 自体は変えないので π₀ の事前学習パターンの崩れが小さい。
  • ②-c 直接結合: TA-VLA の DePre — q_t のゼロパディング次元にトルクを埋め込み1トークンのまま。q_t の中身が変わるため ②-b より性能低下。LAT も直接結合。

なぜトークン数を増やさない方がよいか

トルクは接触の瞬間に急変するため、1フレームでは傾向が読めず過去数フレームの履歴が要る。だが各フレームを別トークンにすると π₀ が事前学習で覚えた入力パターンが崩れ性能低下。情報が多少落ちても履歴全体を MLP で1トークンに集約するのが最良。

性能比較

ForceVLA(プラグ挿入):

融合方式成功率
ベースライン π₀45%
① VLM 前に linear55%
VLM 後に concat60%
②-a FVLMoE80%

TA-VLA(ボタン押し / 充電器挿入):

融合方式ボタン押し充電器挿入
π₀5/200/20
① Enc7/208/20
DePre8/2011/20
②-b DePost10/2012/20

総じて TA-VLA: ②-b > ②-c > ①、ForceVLA: ②-a > concat > ① > π₀。デコーダ側で MoE/MLP 融合するほど高性能。

関連: vtla / tactile-sensing-for-manipulation / vla-architecture / bilateral-control