Abstract

  • ケーブルタイの通しやバッテリーの装着など、精密で接触力の調整や閉ループ視覚フィードバックを必要とする細かい操作タスクは、ロボットにとって難しい
  • 通常、高価なロボットや正確なセンサー、慎重なキャリブレーションが必要
  • 低コストハードウェアで学習によりこれらのタスクを可能にすることを目指す
  • カスタム遠隔操作インターフェースで収集した実デモンストレーションから直接エンドツーエンドの模倣学習を行う低コストシステムを提案
  • 模倣学習の課題(誤差の累積、人間デモの非定常性)に対処するため、Action Chunking with Transformers (ACT) を開発
  • ACTはアクション系列の生成モデルを学習
  • 約10分のデモデータで、半透明の調味料カップを開けたりバッテリーを挿入するなど6つの難しいタスクで80-90%の成功率を達成

1. Introduction

項目内容
課題細かい操作タスク(つまむ、こじ開ける、引き裂くなど)は精密さとハンドアイコーディネーションを必要とし、ミリ単位のエラーでタスク失敗
既存システムの問題高価なロボットとハイエンドセンサーに依存。アクセシビリティと再現性に欠ける
提案アプローチ学習ベースのアプローチ。RGB画像から直接アクションへマッピングするエンドツーエンドポリシー
ピクセルToアクションの利点複雑な物理をモデル化するより、閉ループポリシーで異なる状況に反応する方がシンプル
遠隔操作システム (ALOHA)2セットの低コスト市販ロボットアーム使用。関節空間マッピングで遠隔操作。$20k以下の予算
模倣学習アルゴリズム (ACT)アクションチャンキング(次のk時間ステップを予測)でタスクの有効ホライゾンをk倍削減。テンポラルアンサンブルでスムーズさを向上。CVAEとして学習
主な貢献低コスト遠隔操作システムと新規模倣学習アルゴリズムの組み合わせ。10分・50デモで6つの細かい操作スキルを学習
カテゴリ内容
模倣学習Behavioral Cloning (BC)は最もシンプルな模倣学習。履歴の組み込み、異なる学習目的、正則化などで改良されてきた。本研究は低コストで繊細な操作タスクを行う模倣学習システムに焦点
累積誤差への対処BCの主な欠点は累積誤差で、ロボットが訓練分布から外れる。DAggerなどはオンポリシー相互作用と専門家の修正を許可するが、時間がかかり不自然。本研究ではアクションチャンキングで有効ホライゾンを削減し、重複するアクションチャンクをアンサンブルする
両手操作両手操作はロボティクスで長い歴史があり、既知の環境ダイナミクスを使った古典制御から、強化学習、人間デモの模倣、キーポイント予測などへ発展。da Vinciやp ABB YuMiなど高価なロボットが使われてきた。本研究は約$5kのアームで高精度閉ループタスクを可能に

3. Hardware Design

ALOHA (A Low-cost Open-source Hardware System for Bimanual Teleoperation)

設計原則説明
低コスト大半のロボット研究室の予算内(産業用アーム1本分程度)
汎用性実世界の物体を使う幅広い細かい操作タスクに適用可能
ユーザーフレンドリー直感的で信頼性が高く、使いやすい
修理可能故障時に研究者が容易に修理可能
組み立て容易入手しやすい材料で素早く組み立て可能
コンポーネント詳細
フォロワーロボットViperX 6-DoF ロボットアーム(約$5,600)、750g可搬重量、1.5mスパン、5-8mm精度
リーダーロボットWidowX(約$3,300)、関節空間マッピングで遠隔操作
グリッパー3Dプリントの「透過型」フィンガー+グリップテープ
操作改善機構3Dプリントの「ハンドルとシザー」機構でバックドライブ力を軽減、連続グリッパー制御
カメラ4台のLogitech C922xウェブカメラ(480×640 RGB):正面、上部、両手首に設置
制御・記録50Hzで遠隔操作とデータ記録
総コスト約$20k(Franka Emika Panda 1本と同等)

可能なタスク例:

  • 精密タスク:ケーブルタイ通し、ウォレットからクレジットカード取り出し、ジップロック開閉
  • 接触リッチタスク:288ピンRAM挿入、ページめくり、NIST基板#2のチェーン組み立て
  • 動的タスク:卓球ボールジャグリング、ボールバランス、ビニール袋を空中で開く

4. Action Chunking with Transformers (ACT)

4.1 Action Chunking and Temporal Ensemble

概念説明
アクションチャンキング神経科学の概念から着想。個別のアクションをチャンクとしてグループ化し、1単位として実行。ポリシーは次のk時間ステップのターゲット関節位置を予測
効果タスクの有効ホライゾンをk倍削減し、累積誤差を軽減。非マルコフ的な行動(デモ中の一時停止など)もモデル化可能
テンポラルアンサンブル毎時間ステップでポリシーをクエリし、重複するアクションチャンクを指数加重平均で結合。スムーズで精密な動きを実現

4.2 Modeling human data

課題解決策
人間デモのノイズと確率性同じ観測に対して異なる軌道を取りうる
対処方法ポリシーをConditional VAE (CVAE) として訓練。現在の観測条件付きでアクション系列を生成
CVAEエンコーダ現在の観測とアクション系列から「スタイル変数」zの平均と分散を予測。テスト時は破棄
CVAEデコーダ(ポリシー)zと現在の観測(画像+関節位置)を条件としてアクション系列を予測。テスト時はzを事前分布の平均(ゼロ)に設定

4.3 Implementing ACT

項目詳細
アーキテクチャCVAEエンコーダ・デコーダ共にTransformerで実装
入力観測4枚のRGB画像(480×640)、2アームの関節位置(7+7=14 DoF)
アクション空間2ロボットの絶対関節位置(14次元ベクトル)
画像処理ResNet18で480×640×3 → 15×20×512特徴マップ → 300×512系列(2D sinusoidal位置埋め込み付加)
損失関数再構成にL1損失(L2より精密なモデリング)、VAE目的関数
モデルサイズ約80Mパラメータ
訓練時間11G RTX 2080 Ti 1台で約5時間
推論時間約0.01秒

5. Experiments

タスク一覧

タスク名説明
Slide Ziplocジップロックのスライダーを正確につかんで開ける
Slot Batteryリモコンにバッテリーを挿入(スプリングに対抗して押し込む)
Open Cup小さな調味料カップの蓋を開ける(傾けて、つかんで、こじ開ける)
Thread Velcroベルクロケーブルタイの一端を反対側の小さなループに通す(3mm×25mmのループ)
Prep Tapeテープを切って段ボール箱の端に掛ける(空中での受け渡し含む)
Put On Shoeマネキンの足に靴を履かせ、ベルクロストラップで固定
Transfer Cube(シミュレーション)赤いキューブを持ち上げ、もう一方のグリッパーに置く
Bimanual Insertion(シミュレーション)ソケットとペグを持ち上げ、空中で挿入(クリアランス約5mm)

データ収集

  • 各タスク8-14秒(400-700時間ステップ)、50デモ収集(Thread Velcroは100デモ)
  • 各タスク約10-20分のデモデータ、壁時計時間で30-60分

比較手法

手法特徴
BC-ConvMLPCNNで画像処理、関節位置と連結してアクション予測
BeTTransformerベース、1アクション予測、事前訓練済み視覚エンコーダ使用、アクション空間離散化
RT-1Transformerベース、固定長履歴から1アクション予測、アクション空間離散化
VINN非パラメトリック手法、k近傍で最も類似した視覚特徴の観測を検索してアクション返却

結果

タスクACT他手法(最良)
Transfer Cube(スクリプト/人間データ)97%/82%60%/16% (BeT)
Bimanual Insertion(スクリプト/人間データ)90%/60%51%/13% (BeT)
Slide Ziploc88%0%
Slot Battery96%0%
Open Cup84%0% (BeT)
Thread Velcro20%0% (BeT)
Prep Tape64%0% (BeT)
Put On Shoe92%0% (BeT)

6. Results

Ablation Studies

アクションチャンキングとテンポラルアンサンブル

発見詳細
チャンクサイズkの効果k=1(チャンキングなし)で1%、k=100で44%。より多くのチャンキングと低い有効ホライゾンが性能向上
k>200での若干の低下オープンループ制御に近づくと反応的な行動の欠如とモデリングの難しさで性能低下
汎用性BC-ConvMLPとVINNもチャンキング追加で性能向上
テンポラルアンサンブルBC-ConvMLPで4%、ACTで3.3%の性能向上。VINNでは性能低下(非パラメトリック手法のためモデリング誤差がない)

CVAEによる訓練

データタイプCVAEありCVAEなし
スクリプトデータ差なし差なし
人間データ35.3%2%

→ CVAE目的関数は人間デモからの学習に不可欠

高周波数制御の必要性

周波数ケーブルタイ通しカップ分離
50Hz20秒10秒
5Hz33秒16秒

→ 50Hzから5Hzへの低下で遠隔操作時間が62%増加(p < 0.001)

7. Conclusion

  • 低コストシステム(遠隔操作システムALOHA + 模倣学習アルゴリズムACT)で細かい操作を実現
  • 約10分のデモで半透明調味料カップを開けたりバッテリーを挿入するタスクで80-90%の成功率
  • 限界: ドレスシャツのボタン留めなど、ロボットまたは学習アルゴリズムの能力を超えるタスクも存在
    • ハードウェア:複数指を必要とするタスク(チャイルドプルーフボトル開け)、高力タスク(密封ボトル開け)、爪を必要とするタスク
    • ソフトウェア:キャンディの包装を開ける(10試行中0成功の難しいステップあり)、平らなジップロック袋を開ける(知覚困難)
  • 低コストオープンソースシステムが細かいロボット操作の進歩に向けた重要な一歩となることを期待