Abstract
- ケーブルタイの通しやバッテリーの装着など、精密で接触力の調整や閉ループ視覚フィードバックを必要とする細かい操作タスクは、ロボットにとって難しい
- 通常、高価なロボットや正確なセンサー、慎重なキャリブレーションが必要
- 低コストハードウェアで学習によりこれらのタスクを可能にすることを目指す
- カスタム遠隔操作インターフェースで収集した実デモンストレーションから直接エンドツーエンドの模倣学習を行う低コストシステムを提案
- 模倣学習の課題(誤差の累積、人間デモの非定常性)に対処するため、Action Chunking with Transformers (ACT) を開発
- ACTはアクション系列の生成モデルを学習
- 約10分のデモデータで、半透明の調味料カップを開けたりバッテリーを挿入するなど6つの難しいタスクで80-90%の成功率を達成
1. Introduction
| 項目 | 内容 |
|---|
| 課題 | 細かい操作タスク(つまむ、こじ開ける、引き裂くなど)は精密さとハンドアイコーディネーションを必要とし、ミリ単位のエラーでタスク失敗 |
| 既存システムの問題 | 高価なロボットとハイエンドセンサーに依存。アクセシビリティと再現性に欠ける |
| 提案アプローチ | 学習ベースのアプローチ。RGB画像から直接アクションへマッピングするエンドツーエンドポリシー |
| ピクセルToアクションの利点 | 複雑な物理をモデル化するより、閉ループポリシーで異なる状況に反応する方がシンプル |
| 遠隔操作システム (ALOHA) | 2セットの低コスト市販ロボットアーム使用。関節空間マッピングで遠隔操作。$20k以下の予算 |
| 模倣学習アルゴリズム (ACT) | アクションチャンキング(次のk時間ステップを予測)でタスクの有効ホライゾンをk倍削減。テンポラルアンサンブルでスムーズさを向上。CVAEとして学習 |
| 主な貢献 | 低コスト遠隔操作システムと新規模倣学習アルゴリズムの組み合わせ。10分・50デモで6つの細かい操作スキルを学習 |
| カテゴリ | 内容 |
|---|
| 模倣学習 | Behavioral Cloning (BC)は最もシンプルな模倣学習。履歴の組み込み、異なる学習目的、正則化などで改良されてきた。本研究は低コストで繊細な操作タスクを行う模倣学習システムに焦点 |
| 累積誤差への対処 | BCの主な欠点は累積誤差で、ロボットが訓練分布から外れる。DAggerなどはオンポリシー相互作用と専門家の修正を許可するが、時間がかかり不自然。本研究ではアクションチャンキングで有効ホライゾンを削減し、重複するアクションチャンクをアンサンブルする |
| 両手操作 | 両手操作はロボティクスで長い歴史があり、既知の環境ダイナミクスを使った古典制御から、強化学習、人間デモの模倣、キーポイント予測などへ発展。da Vinciやp ABB YuMiなど高価なロボットが使われてきた。本研究は約$5kのアームで高精度閉ループタスクを可能に |
3. Hardware Design
ALOHA (A Low-cost Open-source Hardware System for Bimanual Teleoperation)
| 設計原則 | 説明 |
|---|
| 低コスト | 大半のロボット研究室の予算内(産業用アーム1本分程度) |
| 汎用性 | 実世界の物体を使う幅広い細かい操作タスクに適用可能 |
| ユーザーフレンドリー | 直感的で信頼性が高く、使いやすい |
| 修理可能 | 故障時に研究者が容易に修理可能 |
| 組み立て容易 | 入手しやすい材料で素早く組み立て可能 |
| コンポーネント | 詳細 |
|---|
| フォロワーロボット | ViperX 6-DoF ロボットアーム(約$5,600)、750g可搬重量、1.5mスパン、5-8mm精度 |
| リーダーロボット | WidowX(約$3,300)、関節空間マッピングで遠隔操作 |
| グリッパー | 3Dプリントの「透過型」フィンガー+グリップテープ |
| 操作改善機構 | 3Dプリントの「ハンドルとシザー」機構でバックドライブ力を軽減、連続グリッパー制御 |
| カメラ | 4台のLogitech C922xウェブカメラ(480×640 RGB):正面、上部、両手首に設置 |
| 制御・記録 | 50Hzで遠隔操作とデータ記録 |
| 総コスト | 約$20k(Franka Emika Panda 1本と同等) |
可能なタスク例:
- 精密タスク:ケーブルタイ通し、ウォレットからクレジットカード取り出し、ジップロック開閉
- 接触リッチタスク:288ピンRAM挿入、ページめくり、NIST基板#2のチェーン組み立て
- 動的タスク:卓球ボールジャグリング、ボールバランス、ビニール袋を空中で開く
4.1 Action Chunking and Temporal Ensemble
| 概念 | 説明 |
|---|
| アクションチャンキング | 神経科学の概念から着想。個別のアクションをチャンクとしてグループ化し、1単位として実行。ポリシーは次のk時間ステップのターゲット関節位置を予測 |
| 効果 | タスクの有効ホライゾンをk倍削減し、累積誤差を軽減。非マルコフ的な行動(デモ中の一時停止など)もモデル化可能 |
| テンポラルアンサンブル | 毎時間ステップでポリシーをクエリし、重複するアクションチャンクを指数加重平均で結合。スムーズで精密な動きを実現 |
4.2 Modeling human data
| 課題 | 解決策 |
|---|
| 人間デモのノイズと確率性 | 同じ観測に対して異なる軌道を取りうる |
| 対処方法 | ポリシーをConditional VAE (CVAE) として訓練。現在の観測条件付きでアクション系列を生成 |
| CVAEエンコーダ | 現在の観測とアクション系列から「スタイル変数」zの平均と分散を予測。テスト時は破棄 |
| CVAEデコーダ(ポリシー) | zと現在の観測(画像+関節位置)を条件としてアクション系列を予測。テスト時はzを事前分布の平均(ゼロ)に設定 |
4.3 Implementing ACT
| 項目 | 詳細 |
|---|
| アーキテクチャ | CVAEエンコーダ・デコーダ共にTransformerで実装 |
| 入力観測 | 4枚のRGB画像(480×640)、2アームの関節位置(7+7=14 DoF) |
| アクション空間 | 2ロボットの絶対関節位置(14次元ベクトル) |
| 画像処理 | ResNet18で480×640×3 → 15×20×512特徴マップ → 300×512系列(2D sinusoidal位置埋め込み付加) |
| 損失関数 | 再構成にL1損失(L2より精密なモデリング)、VAE目的関数 |
| モデルサイズ | 約80Mパラメータ |
| 訓練時間 | 11G RTX 2080 Ti 1台で約5時間 |
| 推論時間 | 約0.01秒 |
5. Experiments
タスク一覧
| タスク名 | 説明 |
|---|
| Slide Ziploc | ジップロックのスライダーを正確につかんで開ける |
| Slot Battery | リモコンにバッテリーを挿入(スプリングに対抗して押し込む) |
| Open Cup | 小さな調味料カップの蓋を開ける(傾けて、つかんで、こじ開ける) |
| Thread Velcro | ベルクロケーブルタイの一端を反対側の小さなループに通す(3mm×25mmのループ) |
| Prep Tape | テープを切って段ボール箱の端に掛ける(空中での受け渡し含む) |
| Put On Shoe | マネキンの足に靴を履かせ、ベルクロストラップで固定 |
| Transfer Cube(シミュレーション) | 赤いキューブを持ち上げ、もう一方のグリッパーに置く |
| Bimanual Insertion(シミュレーション) | ソケットとペグを持ち上げ、空中で挿入(クリアランス約5mm) |
データ収集
- 各タスク8-14秒(400-700時間ステップ)、50デモ収集(Thread Velcroは100デモ)
- 各タスク約10-20分のデモデータ、壁時計時間で30-60分
比較手法
| 手法 | 特徴 |
|---|
| BC-ConvMLP | CNNで画像処理、関節位置と連結してアクション予測 |
| BeT | Transformerベース、1アクション予測、事前訓練済み視覚エンコーダ使用、アクション空間離散化 |
| RT-1 | Transformerベース、固定長履歴から1アクション予測、アクション空間離散化 |
| VINN | 非パラメトリック手法、k近傍で最も類似した視覚特徴の観測を検索してアクション返却 |
結果
| タスク | ACT | 他手法(最良) |
|---|
| Transfer Cube(スクリプト/人間データ) | 97%/82% | 60%/16% (BeT) |
| Bimanual Insertion(スクリプト/人間データ) | 90%/60% | 51%/13% (BeT) |
| Slide Ziploc | 88% | 0% |
| Slot Battery | 96% | 0% |
| Open Cup | 84% | 0% (BeT) |
| Thread Velcro | 20% | 0% (BeT) |
| Prep Tape | 64% | 0% (BeT) |
| Put On Shoe | 92% | 0% (BeT) |
6. Results
Ablation Studies
アクションチャンキングとテンポラルアンサンブル
| 発見 | 詳細 |
|---|
| チャンクサイズkの効果 | k=1(チャンキングなし)で1%、k=100で44%。より多くのチャンキングと低い有効ホライゾンが性能向上 |
| k>200での若干の低下 | オープンループ制御に近づくと反応的な行動の欠如とモデリングの難しさで性能低下 |
| 汎用性 | BC-ConvMLPとVINNもチャンキング追加で性能向上 |
| テンポラルアンサンブル | BC-ConvMLPで4%、ACTで3.3%の性能向上。VINNでは性能低下(非パラメトリック手法のためモデリング誤差がない) |
CVAEによる訓練
| データタイプ | CVAEあり | CVAEなし |
|---|
| スクリプトデータ | 差なし | 差なし |
| 人間データ | 35.3% | 2% |
→ CVAE目的関数は人間デモからの学習に不可欠
高周波数制御の必要性
| 周波数 | ケーブルタイ通し | カップ分離 |
|---|
| 50Hz | 20秒 | 10秒 |
| 5Hz | 33秒 | 16秒 |
→ 50Hzから5Hzへの低下で遠隔操作時間が62%増加(p < 0.001)
7. Conclusion
- 低コストシステム(遠隔操作システムALOHA + 模倣学習アルゴリズムACT)で細かい操作を実現
- 約10分のデモで半透明調味料カップを開けたりバッテリーを挿入するタスクで80-90%の成功率
- 限界: ドレスシャツのボタン留めなど、ロボットまたは学習アルゴリズムの能力を超えるタスクも存在
- ハードウェア:複数指を必要とするタスク(チャイルドプルーフボトル開け)、高力タスク(密封ボトル開け)、爪を必要とするタスク
- ソフトウェア:キャンディの包装を開ける(10試行中0成功の難しいステップあり)、平らなジップロック袋を開ける(知覚困難)
- 低コストオープンソースシステムが細かいロボット操作の進歩に向けた重要な一歩となることを期待