Bi-LAT(双方向制御 + 言語アクション Transformer)
4チャネル双方向(バイラテラル)制御で収集した力覚付きデモを用い、言語指示・画像・フォロワー状態からアクションを生成する vtla モデル。act 系(CVAE + Transformer)の力拡張に言語を加えた位置づけで、bi-lat は Bi-ACT に言語条件付けを足したもの。
入出力と推論
prompt, images, follower_state = observation
action = EncoderDecoder(prompt, images, follower_state) # CVAE @ 100Hz
follower_state = control_follower(action) # 位置 & 力制御 @ 1000Hz
- state / action はいずれも 5 関節分の (角度, 角速度, トルク) で表現。
- 推論(CVAE)は 100Hz、フォロワーの実制御(位置+力制御)は 1000Hz の階層レート。
モジュール構成
- 画像: 640×480×3 を3枚(上方・側方・グリッパ直下)、ResNet-18 でエンコード。
- 言語: CLIP系(CLIP, SigLIP)または BERT系(DistilBERT, ModernBERT)の言語エンコーダで固定長ベクトル化。
- 力覚・状態モジュール: フォロワーの各関節の角度・角速度・トルクを時系列入力。
- データ収集は4チャネル双方向制御を使用。エンコーダで角度を、**DOB/RFOB(外乱オブザーバ/反力オブザーバ)**で環境接触による反力トルクを推定する(トルクセンサ不要の低コスト力推定)。
関連
- act(ベースの CVAE + Transformer アーキテクチャ)
- vla-architecture / vtla
- forcevla / ta-vla
- _moc-ml-robotics(ml-robotics クラスタの atomic ノート群)