TA-VLA(Torque-Aware VLA)
関節トルク(力情報)を観測として vla に取り込む際、「どこに・どう埋め込むか」で性能が大きく変わることを体系的に調査した研究。論文4章「Sense What Was: Torques as Observations」が中心。vtla の中でも力の注入位置に関する最も明確な比較知見を与える。pi0 をベースとする。
調査した2つの問い
- トルクをどこに埋め込むか(VLM側エンコーダ / Action Expert 側デコーダ)
- 過去のトルクをどのように活用するか
3つの埋め込み方式
1. Encoder Embedding
画像トークン・言語トークンと並べてエンコーダに入力する素朴な方式。
I = ViT(images)
F = MLP(torques)
Encoder([I; L; F])
action = Decoder(state, noise)
forcevla と同じく、VLM 側に力を入れると性能が伸びないことが確認される。
2. Decoder Pre-Concatenation Embedding(DePre)
state とトルクを連結してから1つの MLP に通し、デコーダへ。
Encoder([I; L])
pt = MLP([state; torques])
action = Decoder(pt, noise)
3. Decoder Post-Concatenation Embedding(DePost)
state とトルクを別々の MLP で埋め込んでからデコーダへ。最良。
Encoder([I; L])
p = MLP(state)
t = MLP(torques)
action = Decoder(pt, noise)
結論
性能は pi0 < (1) Encoder < (2) DePre < (3) DePost。
→ 力情報は VLM(理解側)ではなく Action Expert(行動生成側)の近くで、かつ state と分離して注入するほど効く、という vtla 共通の傾向を裏づける。
関連
- vla-architecture(力入力方式の分類のなかでの位置づけ)
- vtla / forcevla / bi-lat
- pi0
- _moc-ml-robotics(ml-robotics クラスタの atomic ノート群)