ForceVLA(FVLMoE による力融合)
接触リッチな操作タスク向けに、力(force)情報を Mixture-of-Experts で視覚言語特徴と統合する vla 拡張(vtla の代表モデルの一つ)。pi0 をベースとする。
アーキテクチャ
VL = VLM(images, prompt)
F = proj_f(force) # 単純な MLP ではない射影
FVL = FVLMoE(VL, F) # Force-Vision-Language MoE で融合
Action = ActionExpert(state, noise, FVL)
# Action 出力から次ステップ用のフィードバック F' が得られ、次の F とする
- proj_f: 力を MLP ではない専用の射影で埋め込む。
- FVLMoE: 視覚言語特徴
VLと力特徴Fを MoE で融合する中核モジュール。 - フィードバックループ: Action Expert の出力から
F'を得て次ステップの力入力に回す、閉ループ的な構造。
知見
- VLM 側に力を入れると性能が落ちる。この知見は ta-vla でも独立に再現されており、力情報は理解側(VLM)ではなく行動生成側(Action Expert)の近くで融合すべき、という vtla 共通の設計指針につながる。
関連
- vla-architecture / vtla
- ta-vla / bi-lat
- pi0
- _moc-ml-robotics(ml-robotics クラスタの atomic ノート群)