TA-VLA（Torque-Aware VLA）

関節トルク（力情報）を観測として vla に取り込む際、「どこに・どう埋め込むか」で性能が大きく変わることを体系的に調査した研究。論文4章「Sense What Was: Torques as Observations」が中心。vtla の中でも力の注入位置に関する最も明確な比較知見を与える。pi0 をベースとする。

調査した2つの問い

トルクをどこに埋め込むか（VLM側エンコーダ / Action Expert 側デコーダ）
過去のトルクをどのように活用するか

3つの埋め込み方式

1. Encoder Embedding

画像トークン・言語トークンと並べてエンコーダに入力する素朴な方式。

I = ViT(images)
F = MLP(torques)
Encoder([I; L; F])
action = Decoder(state, noise)

forcevla と同じく、VLM 側に力を入れると性能が伸びないことが確認される。

2. Decoder Pre-Concatenation Embedding（DePre）

state とトルクを連結してから1つの MLP に通し、デコーダへ。

Encoder([I; L])
pt = MLP([state; torques])
action = Decoder(pt, noise)

3. Decoder Post-Concatenation Embedding（DePost）

state とトルクを別々の MLP で埋め込んでからデコーダへ。最良。

Encoder([I; L])
p = MLP(state)
t = MLP(torques)
action = Decoder(pt, noise)

結論

性能は pi0 < (1) Encoder < (2) DePre < (3) DePost。
→ 力情報は VLM（理解側）ではなく Action Expert（行動生成側）の近くで、かつ state と分離して注入するほど効く、という vtla 共通の傾向を裏づける。

Quartz 5

Explorer

TA-VLA（Torque-Aware VLA）

TA-VLA（Torque-Aware VLA）

調査した2つの問い

3つの埋め込み方式

1. Encoder Embedding

2. Decoder Pre-Concatenation Embedding（DePre）

3. Decoder Post-Concatenation Embedding（DePost）

結論

関連

Graph View

Table of Contents

Backlinks