Bi-LAT(双方向制御 + 言語アクション Transformer)

4チャネル双方向(バイラテラル)制御で収集した力覚付きデモを用い、言語指示・画像・フォロワー状態からアクションを生成する vtla モデル。act 系(CVAE + Transformer)の力拡張に言語を加えた位置づけで、bi-lat は Bi-ACT に言語条件付けを足したもの。

入出力と推論

prompt, images, follower_state = observation
action = EncoderDecoder(prompt, images, follower_state)  # CVAE @ 100Hz
follower_state = control_follower(action)                # 位置 & 力制御 @ 1000Hz
  • state / action はいずれも 5 関節分の (角度, 角速度, トルク) で表現。
  • 推論(CVAE)は 100Hz、フォロワーの実制御(位置+力制御)は 1000Hz の階層レート。

モジュール構成

  • 画像: 640×480×3 を3枚(上方・側方・グリッパ直下)、ResNet-18 でエンコード。
  • 言語: CLIP系(CLIP, SigLIP)または BERT系(DistilBERT, ModernBERT)の言語エンコーダで固定長ベクトル化。
  • 力覚・状態モジュール: フォロワーの各関節の角度・角速度・トルクを時系列入力。
    • データ収集は4チャネル双方向制御を使用。エンコーダで角度を、**DOB/RFOB(外乱オブザーバ/反力オブザーバ)**で環境接触による反力トルクを推定する(トルクセンサ不要の低コスト力推定)。

関連