Abstract
- ロボットアームの自律操作はロボティクスにおける複雑で進化する研究分野
- ACT(Action Chunking with Transformer)モデルとバイラテラル制御ベースの模倣学習の原理を統合
- 入力データ: グリッパーカメラと俯瞰カメラからの画像、フォロワーロボットの関節角度・角速度・トルク
- 出力: リーダーロボットの関節角度・角速度・トルクの次ステップ予測
- この予測能力により、フォロワーロボットでの効果的なバイラテラル制御を実現し、繊細で応答性の高い操作が可能
I. INTRODUCTION
| 項目 | 内容 |
|---|
| 背景 | 近年のロボット制御は人間のデモから学習する方向へシフト(行動クローニング、模倣学習) |
| データ収集の重要性 | VRヘッドセット、スマートフォン、キーボード、リーダー・フォロワーシステムなど多様な手法が存在 |
| ALOHA/Mobile ALOHAの限界 | 位置制御ベースのデータ収集のため力情報を扱えず、物体の硬さを識別できない |
| ACTの利点 | 次のk時間ステップを予測し、タスクの有効ホライゾンをk倍削減、累積誤差を軽減 |
| 本研究の動機 | ACTの模倣学習とバイラテラル制御(位置と力情報を収集可能)を組み合わせる |
主な貢献:
- Bi-ACTの提案: 関節角度・角速度・トルク・画像を用いて学習し、位置と力情報に基づくバイラテラル制御でロボットを操作。物体の硬さや重さへの適応が可能
- マルチモーダルデータを扱うロボットシステムとして、Action Chunksを用いて100Hzの周波数で高速かつロバストな動作生成を実現
II-A. Bilateral Control-Based Imitation Learning
| 項目 | 内容 |
|---|
| 概要 | バイラテラル制御を用いた模倣学習はSakainoらにより提案 |
| バイラテラル制御の原理 | 人間が操作するリーダーロボットの指令に従い、フォロワーロボットを遠隔操作。位置追従と作用反作用の原理を使用 |
| 従来手法の問題 | 多くはLSTMを使用し、画像データを使用しないため環境変化へのロバスト性に欠ける |
| Bi-ACTの位置づけ | ACTとバイラテラル制御ベースの模倣学習を組み合わせ、画像データも統合 |
| 項目 | 内容 |
|---|
| ACTの概要 | CVAEを使用してシーンをモデル化し、マルチモーダル入力からアクション系列(チャンク)を予測 |
| 利点 | 予測アクションを複数時間ステップで時間的に集約し、累積誤差と分布外状態での予測不能な応答を軽減 |
| One ACT Play | エンドエフェクタの位置・姿勢と画像を入力として使用(ACTは関節角度と画像) |
| ACT/One ACT Playの限界 | データ収集やロボット操作時に力情報を使用しない |
| バイラテラル制御の可能性 | 位置と力の両方を同時管理することで、データ収集の品質と自律タスクの成功率を向上可能 |
III. CONTROL SYSTEM
III-A. Controller
- 各軸で位置と力の制御を採用
- エンコーダから角度情報を取得し、微分により角速度を算出
- **外乱オブザーバ(DOB)**で外乱トルクを計算
- **力反作用オブザーバ(RFOB)**でトルク応答値を推定
III-B. Bilateral Control
| 項目 | 内容 |
|---|
| 基本原理 | オペレータと制御対象間で位置・力・その他の情報を共有 |
| 制御目標 | ①位置追従: θ_l - θ_f = 0、②作用反作用: τ_l + τ_f = 0 |
| 自律運転時 | 学習済みNNモデルがリーダーの代わりとなり、リーダーの応答を予測してフォロワーを制御 |
IV. PROPOSED METHOD (Bi-ACT)
IV-A. Overview
- ACTの手法とバイラテラル制御ベースの模倣学習の原理を統合
- 入力: グリッパー・俯瞰カメラからの画像、フォロワーロボットの関節角度・角速度・トルク
- 出力: リーダーロボットの関節角度・角速度・トルクの次ステップ予測
IV-B. Data Collection
- バイラテラル制御でデータ収集(オペレータがフォロワーロボットの環境を感じながら操作)
- リーダー・フォロワー両方の関節角度・角速度・トルクと俯瞰・グリッパーカメラの画像を記録
- 力情報の追加により、物体の重さや質感の違いを学習時に考慮可能
IV-C. Learning Architecture
| 項目 | 詳細 |
|---|
| 画像入力 | 2枚のRGB画像(360×640): グリッパーカメラと俯瞰カメラ |
| 関節データ入力 | フォロワーの5関節×3種類(角度、角速度、トルク)= 15次元ベクトル |
| 出力 | k × 15テンソル(リーダーの次kステップのアクション) |
| 制御への変換 | 出力されたリーダーのアクションをコントローラに送り、フォロワーロボットの各関節に必要な電流を計算 |
IV-D. Execution to Robot Arm
- 出力データ(各時間ステップでの関節角度・速度・トルク)をバイラテラル制御システムで電流に変換
- アクション結果の更新周波数: 100Hz
- モデルはkステップごとに実行し、次のkステップの予測を生成
V. EXPERIMENTS
V-A. Hardware
| 項目 | 詳細 |
|---|
| ロボットアーム | OpenMANIPULATOR-X(ROBOTIS製) |
| 自由度 | 4 DoF + グリッパー用1 DoF |
| 制御周期 | 1000Hz |
| カメラ | RGBカメラ2台(俯瞰、グリッパー) |
V-B. Environment Setting
タスク1: Pick-and-Place
- 目的: 様々な形状・重さ・質感の物体をピックエリアからプレースエリアへ移動
- ピックエリア: 0.015m四方のスタンド
- プレースエリア: 直径0.07mの円形
- 距離: 0.285m
- 学習用オブジェクト: フォームボール、ソフトボール
- 未学習オブジェクト: 卓球ボール、アイクリーム、カヌレ、サッカーボール、プラスチックピーマン、ハチミツボトル、接着剤瓶
タスク2: Put-in-Drawer
- 目的: 物体をピックエリアから引き出しの中へ移動
- 引き出し: 幅0.16m、ハンドル0.01×0.03m
- ハンドルの摩擦が大きく、力の誤差で開閉失敗のリスクあり
V-C. Training Dataset
| タスク | エピソード数 | 時間/タスク | 総タイムステップ |
|---|
| Pick-and-Place | 50(2オブジェクト×25試行) | 8.4〜9.3秒 | 44,184以上 |
| Put-in-Drawer | 50 | 19.5〜22.4秒 | 97,972 |
- ロボット制御周波数: 1000Hz、カメラ: 約200Hz
- 学習データは100Hzに調整(モデル推論周期に合わせる)
V-D. Experimental Results
Pick-and-Place結果:
| オブジェクト | Bi-ACT(提案手法) | Bi-ACT(力なし) |
|---|
| ソフトボール(学習済み) | 100% | 80% |
| フォームボール(学習済み) | 100% | 100% |
| 卓球ボール(未学習) | 100% | 100% |
| アイクリーム(未学習) | 100% | 50% |
| カヌレ(未学習) | 80% | 80% |
| サッカーボール(未学習) | 90% | 80% |
| ハチミツボトル(未学習) | 90% | 90% |
| プラスチックピーマン(未学習) | 80% | 70% |
| 接着剤瓶(未学習) | 80% | 50% |
重要な発見:
- 力なしモデルは小さい物体には有効だが、大きい・変形しやすい・不規則な形状の物体では性能低下
- アイクリームと接着剤瓶(液体入りで重量分布が不安定)で最も顕著な差が出現
- 力フィードバックは複雑な形状や様々な硬さの物体への適応に重要
Put-in-Drawer結果:
- 全ステップ(Open, Pick, Move, Place, Close)で100%成功率
- 長時間タスクでもロバストで信頼性の高い動作を実証
VI. CONCLUSIONS
- Bi-ACTを提案: バイラテラル制御のロバスト性とACTアーキテクチャの計算能力を組み合わせ、位置とトルク情報を処理
- Bi-ACTは力なし手法と比較して、多様なデータセットで有意に優れた性能を発揮
- 実世界実験で有効性を検証
今後の課題:
- ロバスト性と適応性: 照明条件の変化、物体認識、動的環境への適応
- マルチモーダルセンサ統合: 視覚、触覚、固有受容感覚の統合
- 多様なロボットプラットフォームへの汎化: 異なるアームモデルやセンサ構成での検証