Bi-ACT: Bilateral Control-Based Imitation Learning via Action Chunking with Transformers

Abstract

ロボットアームの自律操作はロボティクスにおける複雑で進化する研究分野
ACT（Action Chunking with Transformer）モデルとバイラテラル制御ベースの模倣学習の原理を統合
入力データ: グリッパーカメラと俯瞰カメラからの画像、フォロワーロボットの関節角度・角速度・トルク
出力: リーダーロボットの関節角度・角速度・トルクの次ステップ予測
この予測能力により、フォロワーロボットでの効果的なバイラテラル制御を実現し、繊細で応答性の高い操作が可能

I. INTRODUCTION

項目	内容
背景	近年のロボット制御は人間のデモから学習する方向へシフト（行動クローニング、模倣学習）
データ収集の重要性	VRヘッドセット、スマートフォン、キーボード、リーダー・フォロワーシステムなど多様な手法が存在
ALOHA/Mobile ALOHAの限界	位置制御ベースのデータ収集のため力情報を扱えず、物体の硬さを識別できない
ACTの利点	次のk時間ステップを予測し、タスクの有効ホライゾンをk倍削減、累積誤差を軽減
本研究の動機	ACTの模倣学習とバイラテラル制御（位置と力情報を収集可能）を組み合わせる

主な貢献:

Bi-ACTの提案: 関節角度・角速度・トルク・画像を用いて学習し、位置と力情報に基づくバイラテラル制御でロボットを操作。物体の硬さや重さへの適応が可能
マルチモーダルデータを扱うロボットシステムとして、Action Chunksを用いて100Hzの周波数で高速かつロバストな動作生成を実現

II-A. Bilateral Control-Based Imitation Learning

項目	内容
概要	バイラテラル制御を用いた模倣学習はSakainoらにより提案
バイラテラル制御の原理	人間が操作するリーダーロボットの指令に従い、フォロワーロボットを遠隔操作。位置追従と作用反作用の原理を使用
従来手法の問題	多くはLSTMを使用し、画像データを使用しないため環境変化へのロバスト性に欠ける
Bi-ACTの位置づけ	ACTとバイラテラル制御ベースの模倣学習を組み合わせ、画像データも統合

II-B. Action Chunking with Transformer

項目	内容
ACTの概要	CVAEを使用してシーンをモデル化し、マルチモーダル入力からアクション系列（チャンク）を予測
利点	予測アクションを複数時間ステップで時間的に集約し、累積誤差と分布外状態での予測不能な応答を軽減
One ACT Play	エンドエフェクタの位置・姿勢と画像を入力として使用（ACTは関節角度と画像）
ACT/One ACT Playの限界	データ収集やロボット操作時に力情報を使用しない
バイラテラル制御の可能性	位置と力の両方を同時管理することで、データ収集の品質と自律タスクの成功率を向上可能

III. CONTROL SYSTEM

III-A. Controller

各軸で位置と力の制御を採用
エンコーダから角度情報を取得し、微分により角速度を算出
**外乱オブザーバ（DOB）**で外乱トルクを計算
**力反作用オブザーバ（RFOB）**でトルク応答値を推定

III-B. Bilateral Control

項目	内容
基本原理	オペレータと制御対象間で位置・力・その他の情報を共有
制御目標	①位置追従: θ_l - θ_f = 0、②作用反作用: τ_l + τ_f = 0
自律運転時	学習済みNNモデルがリーダーの代わりとなり、リーダーの応答を予測してフォロワーを制御

IV. PROPOSED METHOD (Bi-ACT)

IV-A. Overview

ACTの手法とバイラテラル制御ベースの模倣学習の原理を統合
入力: グリッパー・俯瞰カメラからの画像、フォロワーロボットの関節角度・角速度・トルク
出力: リーダーロボットの関節角度・角速度・トルクの次ステップ予測

IV-B. Data Collection

バイラテラル制御でデータ収集（オペレータがフォロワーロボットの環境を感じながら操作）
リーダー・フォロワー両方の関節角度・角速度・トルクと俯瞰・グリッパーカメラの画像を記録
力情報の追加により、物体の重さや質感の違いを学習時に考慮可能

IV-C. Learning Architecture

項目	詳細
画像入力	2枚のRGB画像（360×640）: グリッパーカメラと俯瞰カメラ
関節データ入力	フォロワーの5関節×3種類（角度、角速度、トルク）= 15次元ベクトル
出力	k × 15テンソル（リーダーの次kステップのアクション）
制御への変換	出力されたリーダーのアクションをコントローラに送り、フォロワーロボットの各関節に必要な電流を計算

IV-D. Execution to Robot Arm

出力データ（各時間ステップでの関節角度・速度・トルク）をバイラテラル制御システムで電流に変換
アクション結果の更新周波数: 100Hz
モデルはkステップごとに実行し、次のkステップの予測を生成

V. EXPERIMENTS

V-A. Hardware

項目	詳細
ロボットアーム	OpenMANIPULATOR-X（ROBOTIS製）
自由度	4 DoF + グリッパー用1 DoF
制御周期	1000Hz
カメラ	RGBカメラ2台（俯瞰、グリッパー）

V-B. Environment Setting

タスク1: Pick-and-Place

目的: 様々な形状・重さ・質感の物体をピックエリアからプレースエリアへ移動
ピックエリア: 0.015m四方のスタンド
プレースエリア: 直径0.07mの円形
距離: 0.285m
学習用オブジェクト: フォームボール、ソフトボール
未学習オブジェクト: 卓球ボール、アイクリーム、カヌレ、サッカーボール、プラスチックピーマン、ハチミツボトル、接着剤瓶

タスク2: Put-in-Drawer

目的: 物体をピックエリアから引き出しの中へ移動
引き出し: 幅0.16m、ハンドル0.01×0.03m
ハンドルの摩擦が大きく、力の誤差で開閉失敗のリスクあり

V-C. Training Dataset

タスク	エピソード数	時間/タスク	総タイムステップ
Pick-and-Place	50（2オブジェクト×25試行）	8.4〜9.3秒	44,184以上
Put-in-Drawer	50	19.5〜22.4秒	97,972

ロボット制御周波数: 1000Hz、カメラ: 約200Hz
学習データは100Hzに調整（モデル推論周期に合わせる）

V-D. Experimental Results

Pick-and-Place結果:

オブジェクト	Bi-ACT（提案手法）	Bi-ACT（力なし）
ソフトボール（学習済み）	100%	80%
フォームボール（学習済み）	100%	100%
卓球ボール（未学習）	100%	100%
アイクリーム（未学習）	100%	50%
カヌレ（未学習）	80%	80%
サッカーボール（未学習）	90%	80%
ハチミツボトル（未学習）	90%	90%
プラスチックピーマン（未学習）	80%	70%
接着剤瓶（未学習）	80%	50%

重要な発見:

力なしモデルは小さい物体には有効だが、大きい・変形しやすい・不規則な形状の物体では性能低下
アイクリームと接着剤瓶（液体入りで重量分布が不安定）で最も顕著な差が出現
力フィードバックは複雑な形状や様々な硬さの物体への適応に重要

Put-in-Drawer結果:

全ステップ（Open, Pick, Move, Place, Close）で100%成功率
長時間タスクでもロバストで信頼性の高い動作を実証

VI. CONCLUSIONS

Bi-ACTを提案: バイラテラル制御のロバスト性とACTアーキテクチャの計算能力を組み合わせ、位置とトルク情報を処理
Bi-ACTは力なし手法と比較して、多様なデータセットで有意に優れた性能を発揮
実世界実験で有効性を検証

今後の課題:

ロバスト性と適応性: 照明条件の変化、物体認識、動的環境への適応
マルチモーダルセンサ統合: 視覚、触覚、固有受容感覚の統合
多様なロボットプラットフォームへの汎化: 異なるアームモデルやセンサ構成での検証