VLA への力情報の注入方法
VTLA(力情報を扱う VLA)で、トルク・触覚などの力モーダルをモデルのどこに・どう注入するかの設計空間。注入位置がデコーダ側に近いほど、また融合機構が高度(MoE/MLP)なほど性能が高い傾向がサーベイで確認されている。
注入位置の分類
- ① VLM 側: 力データをトークン化し VLM へ入力。採用: OmniVTLA / Tactile-VLA / VTLA。VLA-Touch は触覚を言語化して VLA 本体を未改変のまま使う変種。
- ②-a AE 側 (MoE): ForceVLA の FVLMoE — VLM 出力トークンと推定外力(6軸)を4エキスパート MLP + Top-1 ルーティングで動的融合。
- ②-b AE 側 (MLP): TA-VLA の DePost — 関節トルク履歴を MLP で1トークンに集約し、AE の状態入力 q_t の前に追加(
[MLP(τ), q_t])。q_t 自体は変えないので π₀ の事前学習パターンの崩れが小さい。 - ②-c 直接結合: TA-VLA の DePre — q_t のゼロパディング次元にトルクを埋め込み1トークンのまま。q_t の中身が変わるため ②-b より性能低下。LAT も直接結合。
なぜトークン数を増やさない方がよいか
トルクは接触の瞬間に急変するため、1フレームでは傾向が読めず過去数フレームの履歴が要る。だが各フレームを別トークンにすると π₀ が事前学習で覚えた入力パターンが崩れ性能低下。情報が多少落ちても履歴全体を MLP で1トークンに集約するのが最良。
性能比較
ForceVLA(プラグ挿入):
| 融合方式 | 成功率 |
|---|---|
| ベースライン π₀ | 45% |
| ① VLM 前に linear | 55% |
| VLM 後に concat | 60% |
| ②-a FVLMoE | 80% |
TA-VLA(ボタン押し / 充電器挿入):
| 融合方式 | ボタン押し | 充電器挿入 |
|---|---|---|
| π₀ | 5/20 | 0/20 |
| ① Enc | 7/20 | 8/20 |
| DePre | 8/20 | 11/20 |
| ②-b DePost | 10/20 | 12/20 |
総じて TA-VLA: ②-b > ②-c > ①、ForceVLA: ②-a > concat > ① > π₀。デコーダ側で MoE/MLP 融合するほど高性能。
関連: vtla / tactile-sensing-for-manipulation / vla-architecture / bilateral-control