ForceVLA(FVLMoE による力融合)

接触リッチな操作タスク向けに、力(force)情報を Mixture-of-Experts で視覚言語特徴と統合する vla 拡張(vtla の代表モデルの一つ)。pi0 をベースとする。

アーキテクチャ

VL  = VLM(images, prompt)
F   = proj_f(force)          # 単純な MLP ではない射影
FVL = FVLMoE(VL, F)          # Force-Vision-Language MoE で融合
Action = ActionExpert(state, noise, FVL)
# Action 出力から次ステップ用のフィードバック F' が得られ、次の F とする
  • proj_f: 力を MLP ではない専用の射影で埋め込む。
  • FVLMoE: 視覚言語特徴 VL と力特徴 F を MoE で融合する中核モジュール。
  • フィードバックループ: Action Expert の出力から F' を得て次ステップの力入力に回す、閉ループ的な構造。

知見

  • VLM 側に力を入れると性能が落ちる。この知見は ta-vla でも独立に再現されており、力情報は理解側(VLM)ではなく行動生成側(Action Expert)の近くで融合すべき、という vtla 共通の設計指針につながる。

関連