TA-VLA(Torque-Aware VLA)

関節トルク(力情報)を観測として vla に取り込む際、「どこに・どう埋め込むか」で性能が大きく変わることを体系的に調査した研究。論文4章「Sense What Was: Torques as Observations」が中心。vtla の中でも力の注入位置に関する最も明確な比較知見を与える。pi0 をベースとする。

調査した2つの問い

  1. トルクをどこに埋め込むか(VLM側エンコーダ / Action Expert 側デコーダ)
  2. 過去のトルクをどのように活用するか

3つの埋め込み方式

1. Encoder Embedding

画像トークン・言語トークンと並べてエンコーダに入力する素朴な方式。

I = ViT(images)
F = MLP(torques)
Encoder([I; L; F])
action = Decoder(state, noise)

forcevla と同じく、VLM 側に力を入れると性能が伸びないことが確認される。

2. Decoder Pre-Concatenation Embedding(DePre)

state とトルクを連結してから1つの MLP に通し、デコーダへ。

Encoder([I; L])
pt = MLP([state; torques])
action = Decoder(pt, noise)

3. Decoder Post-Concatenation Embedding(DePost)

state とトルクを別々の MLP で埋め込んでからデコーダへ。最良。

Encoder([I; L])
p = MLP(state)
t = MLP(torques)
action = Decoder(pt, noise)

結論

性能は pi0 < (1) Encoder < (2) DePre < (3) DePost
→ 力情報は VLM(理解側)ではなく Action Expert(行動生成側)の近くで、かつ state と分離して注入するほど効く、という vtla 共通の傾向を裏づける。

関連