Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Abstract

ケーブルタイの通しやバッテリーの装着など、精密で接触力の調整や閉ループ視覚フィードバックを必要とする細かい操作タスクは、ロボットにとって難しい
通常、高価なロボットや正確なセンサー、慎重なキャリブレーションが必要
低コストハードウェアで学習によりこれらのタスクを可能にすることを目指す
カスタム遠隔操作インターフェースで収集した実デモンストレーションから直接エンドツーエンドの模倣学習を行う低コストシステムを提案
模倣学習の課題（誤差の累積、人間デモの非定常性）に対処するため、Action Chunking with Transformers (ACT) を開発
ACTはアクション系列の生成モデルを学習
約10分のデモデータで、半透明の調味料カップを開けたりバッテリーを挿入するなど6つの難しいタスクで80-90%の成功率を達成

1. Introduction

項目	内容
課題	細かい操作タスク（つまむ、こじ開ける、引き裂くなど）は精密さとハンドアイコーディネーションを必要とし、ミリ単位のエラーでタスク失敗
既存システムの問題	高価なロボットとハイエンドセンサーに依存。アクセシビリティと再現性に欠ける
提案アプローチ	学習ベースのアプローチ。RGB画像から直接アクションへマッピングするエンドツーエンドポリシー
ピクセルToアクションの利点	複雑な物理をモデル化するより、閉ループポリシーで異なる状況に反応する方がシンプル
遠隔操作システム (ALOHA)	2セットの低コスト市販ロボットアーム使用。関節空間マッピングで遠隔操作。$20k以下の予算
模倣学習アルゴリズム (ACT)	アクションチャンキング（次のk時間ステップを予測）でタスクの有効ホライゾンをk倍削減。テンポラルアンサンブルでスムーズさを向上。CVAEとして学習
主な貢献	低コスト遠隔操作システムと新規模倣学習アルゴリズムの組み合わせ。10分・50デモで6つの細かい操作スキルを学習

カテゴリ	内容
模倣学習	Behavioral Cloning (BC)は最もシンプルな模倣学習。履歴の組み込み、異なる学習目的、正則化などで改良されてきた。本研究は低コストで繊細な操作タスクを行う模倣学習システムに焦点
累積誤差への対処	BCの主な欠点は累積誤差で、ロボットが訓練分布から外れる。DAggerなどはオンポリシー相互作用と専門家の修正を許可するが、時間がかかり不自然。本研究ではアクションチャンキングで有効ホライゾンを削減し、重複するアクションチャンクをアンサンブルする
両手操作	両手操作はロボティクスで長い歴史があり、既知の環境ダイナミクスを使った古典制御から、強化学習、人間デモの模倣、キーポイント予測などへ発展。da Vinciやp ABB YuMiなど高価なロボットが使われてきた。本研究は約$5kのアームで高精度閉ループタスクを可能に

3. Hardware Design

ALOHA (A Low-cost Open-source Hardware System for Bimanual Teleoperation)

設計原則	説明
低コスト	大半のロボット研究室の予算内（産業用アーム1本分程度）
汎用性	実世界の物体を使う幅広い細かい操作タスクに適用可能
ユーザーフレンドリー	直感的で信頼性が高く、使いやすい
修理可能	故障時に研究者が容易に修理可能
組み立て容易	入手しやすい材料で素早く組み立て可能

コンポーネント	詳細
フォロワーロボット	ViperX 6-DoF ロボットアーム（約$5,600）、750g可搬重量、1.5mスパン、5-8mm精度
リーダーロボット	WidowX（約$3,300）、関節空間マッピングで遠隔操作
グリッパー	3Dプリントの「透過型」フィンガー＋グリップテープ
操作改善機構	3Dプリントの「ハンドルとシザー」機構でバックドライブ力を軽減、連続グリッパー制御
カメラ	4台のLogitech C922xウェブカメラ（480×640 RGB）：正面、上部、両手首に設置
制御・記録	50Hzで遠隔操作とデータ記録
総コスト	約$20k（Franka Emika Panda 1本と同等）

可能なタスク例：

精密タスク：ケーブルタイ通し、ウォレットからクレジットカード取り出し、ジップロック開閉
接触リッチタスク：288ピンRAM挿入、ページめくり、NIST基板#2のチェーン組み立て
動的タスク：卓球ボールジャグリング、ボールバランス、ビニール袋を空中で開く

4. Action Chunking with Transformers (ACT)

4.1 Action Chunking and Temporal Ensemble

概念	説明
アクションチャンキング	神経科学の概念から着想。個別のアクションをチャンクとしてグループ化し、1単位として実行。ポリシーは次のk時間ステップのターゲット関節位置を予測
効果	タスクの有効ホライゾンをk倍削減し、累積誤差を軽減。非マルコフ的な行動（デモ中の一時停止など）もモデル化可能
テンポラルアンサンブル	毎時間ステップでポリシーをクエリし、重複するアクションチャンクを指数加重平均で結合。スムーズで精密な動きを実現

4.2 Modeling human data

課題	解決策
人間デモのノイズと確率性	同じ観測に対して異なる軌道を取りうる
対処方法	ポリシーをConditional VAE (CVAE) として訓練。現在の観測条件付きでアクション系列を生成
CVAEエンコーダ	現在の観測とアクション系列から「スタイル変数」zの平均と分散を予測。テスト時は破棄
CVAEデコーダ（ポリシー）	zと現在の観測（画像＋関節位置）を条件としてアクション系列を予測。テスト時はzを事前分布の平均（ゼロ）に設定

4.3 Implementing ACT

項目	詳細
アーキテクチャ	CVAEエンコーダ・デコーダ共にTransformerで実装
入力観測	4枚のRGB画像（480×640）、2アームの関節位置（7+7=14 DoF）
アクション空間	2ロボットの絶対関節位置（14次元ベクトル）
画像処理	ResNet18で480×640×3 → 15×20×512特徴マップ → 300×512系列（2D sinusoidal位置埋め込み付加）
損失関数	再構成にL1損失（L2より精密なモデリング）、VAE目的関数
モデルサイズ	約80Mパラメータ
訓練時間	11G RTX 2080 Ti 1台で約5時間
推論時間	約0.01秒

5. Experiments

タスク一覧

タスク名	説明
Slide Ziploc	ジップロックのスライダーを正確につかんで開ける
Slot Battery	リモコンにバッテリーを挿入（スプリングに対抗して押し込む）
Open Cup	小さな調味料カップの蓋を開ける（傾けて、つかんで、こじ開ける）
Thread Velcro	ベルクロケーブルタイの一端を反対側の小さなループに通す（3mm×25mmのループ）
Prep Tape	テープを切って段ボール箱の端に掛ける（空中での受け渡し含む）
Put On Shoe	マネキンの足に靴を履かせ、ベルクロストラップで固定
Transfer Cube（シミュレーション）	赤いキューブを持ち上げ、もう一方のグリッパーに置く
Bimanual Insertion（シミュレーション）	ソケットとペグを持ち上げ、空中で挿入（クリアランス約5mm）

データ収集

各タスク8-14秒（400-700時間ステップ）、50デモ収集（Thread Velcroは100デモ）
各タスク約10-20分のデモデータ、壁時計時間で30-60分

比較手法

手法	特徴
BC-ConvMLP	CNNで画像処理、関節位置と連結してアクション予測
BeT	Transformerベース、1アクション予測、事前訓練済み視覚エンコーダ使用、アクション空間離散化
RT-1	Transformerベース、固定長履歴から1アクション予測、アクション空間離散化
VINN	非パラメトリック手法、k近傍で最も類似した視覚特徴の観測を検索してアクション返却

結果

タスク	ACT	他手法（最良）
Transfer Cube（スクリプト/人間データ）	97%/82%	60%/16% (BeT)
Bimanual Insertion（スクリプト/人間データ）	90%/60%	51%/13% (BeT)
Slide Ziploc	88%	0%
Slot Battery	96%	0%
Open Cup	84%	0% (BeT)
Thread Velcro	20%	0% (BeT)
Prep Tape	64%	0% (BeT)
Put On Shoe	92%	0% (BeT)

6. Results

Ablation Studies

アクションチャンキングとテンポラルアンサンブル

発見	詳細
チャンクサイズkの効果	k=1（チャンキングなし）で1%、k=100で44%。より多くのチャンキングと低い有効ホライゾンが性能向上
k>200での若干の低下	オープンループ制御に近づくと反応的な行動の欠如とモデリングの難しさで性能低下
汎用性	BC-ConvMLPとVINNもチャンキング追加で性能向上
テンポラルアンサンブル	BC-ConvMLPで4%、ACTで3.3%の性能向上。VINNでは性能低下（非パラメトリック手法のためモデリング誤差がない）

CVAEによる訓練

データタイプ	CVAEあり	CVAEなし
スクリプトデータ	差なし	差なし
人間データ	35.3%	2%

→ CVAE目的関数は人間デモからの学習に不可欠

高周波数制御の必要性

周波数	ケーブルタイ通し	カップ分離
50Hz	20秒	10秒
5Hz	33秒	16秒

→ 50Hzから5Hzへの低下で遠隔操作時間が62%増加（p < 0.001）

7. Conclusion

低コストシステム（遠隔操作システムALOHA + 模倣学習アルゴリズムACT）で細かい操作を実現
約10分のデモで半透明調味料カップを開けたりバッテリーを挿入するタスクで80-90%の成功率
限界: ドレスシャツのボタン留めなど、ロボットまたは学習アルゴリズムの能力を超えるタスクも存在
- ハードウェア：複数指を必要とするタスク（チャイルドプルーフボトル開け）、高力タスク（密封ボトル開け）、爪を必要とするタスク
- ソフトウェア：キャンディの包装を開ける（10試行中0成功の難しいステップあり）、平らなジップロック袋を開ける（知覚困難）
低コストオープンソースシステムが細かいロボット操作の進歩に向けた重要な一歩となることを期待