ForceVLA（FVLMoE による力融合）

接触リッチな操作タスク向けに、力（force）情報を Mixture-of-Experts で視覚言語特徴と統合する vla 拡張（vtla の代表モデルの一つ）。pi0 をベースとする。

アーキテクチャ

VL  = VLM(images, prompt)
F   = proj_f(force)          # 単純な MLP ではない射影
FVL = FVLMoE(VL, F)          # Force-Vision-Language MoE で融合
Action = ActionExpert(state, noise, FVL)
# Action 出力から次ステップ用のフィードバック F' が得られ、次の F とする

proj_f: 力を MLP ではない専用の射影で埋め込む。
FVLMoE: 視覚言語特徴 VL と力特徴 F を MoE で融合する中核モジュール。
フィードバックループ: Action Expert の出力から F' を得て次ステップの力入力に回す、閉ループ的な構造。

知見

VLM 側に力を入れると性能が落ちる。この知見は ta-vla でも独立に再現されており、力情報は理解側（VLM）ではなく行動生成側（Action Expert）の近くで融合すべき、という vtla 共通の設計指針につながる。

関連

vla-architecture / vtla
ta-vla / bi-lat
pi0
_moc-ml-robotics（ml-robotics クラスタの atomic ノート群）