Bi-LAT（双方向制御 + 言語アクション Transformer）

4チャネル双方向（バイラテラル）制御で収集した力覚付きデモを用い、言語指示・画像・フォロワー状態からアクションを生成する vtla モデル。act 系（CVAE + Transformer）の力拡張に言語を加えた位置づけで、bi-lat は Bi-ACT に言語条件付けを足したもの。

入出力と推論

prompt, images, follower_state = observation
action = EncoderDecoder(prompt, images, follower_state)  # CVAE @ 100Hz
follower_state = control_follower(action)                # 位置 & 力制御 @ 1000Hz

state / action はいずれも 5 関節分の (角度, 角速度, トルク) で表現。
推論（CVAE）は 100Hz、フォロワーの実制御（位置＋力制御）は 1000Hz の階層レート。

モジュール構成

画像: 640×480×3 を3枚（上方・側方・グリッパ直下）、ResNet-18 でエンコード。
言語: CLIP系（CLIP, SigLIP）または BERT系（DistilBERT, ModernBERT）の言語エンコーダで固定長ベクトル化。
力覚・状態モジュール: フォロワーの各関節の角度・角速度・トルクを時系列入力。
- データ収集は4チャネル双方向制御を使用。エンコーダで角度を、**DOB/RFOB（外乱オブザーバ／反力オブザーバ）**で環境接触による反力トルクを推定する（トルクセンサ不要の低コスト力推定）。

関連

act（ベースの CVAE + Transformer アーキテクチャ）
vla-architecture / vtla
forcevla / ta-vla
_moc-ml-robotics（ml-robotics クラスタの atomic ノート群）