Abstract

  • ロボットアームの自律操作はロボティクスにおける複雑で進化する研究分野
  • ACT(Action Chunking with Transformer)モデルバイラテラル制御ベースの模倣学習の原理を統合
  • 入力データ: グリッパーカメラと俯瞰カメラからの画像、フォロワーロボットの関節角度・角速度・トルク
  • 出力: リーダーロボットの関節角度・角速度・トルクの次ステップ予測
  • この予測能力により、フォロワーロボットでの効果的なバイラテラル制御を実現し、繊細で応答性の高い操作が可能

I. INTRODUCTION

項目内容
背景近年のロボット制御は人間のデモから学習する方向へシフト(行動クローニング、模倣学習)
データ収集の重要性VRヘッドセット、スマートフォン、キーボード、リーダー・フォロワーシステムなど多様な手法が存在
ALOHA/Mobile ALOHAの限界位置制御ベースのデータ収集のため力情報を扱えず、物体の硬さを識別できない
ACTの利点次のk時間ステップを予測し、タスクの有効ホライゾンをk倍削減、累積誤差を軽減
本研究の動機ACTの模倣学習とバイラテラル制御(位置と力情報を収集可能)を組み合わせる

主な貢献:

  1. Bi-ACTの提案: 関節角度・角速度・トルク・画像を用いて学習し、位置と力情報に基づくバイラテラル制御でロボットを操作。物体の硬さや重さへの適応が可能
  2. マルチモーダルデータを扱うロボットシステムとして、Action Chunksを用いて100Hzの周波数で高速かつロバストな動作生成を実現

II-A. Bilateral Control-Based Imitation Learning

項目内容
概要バイラテラル制御を用いた模倣学習はSakainoらにより提案
バイラテラル制御の原理人間が操作するリーダーロボットの指令に従い、フォロワーロボットを遠隔操作。位置追従と作用反作用の原理を使用
従来手法の問題多くはLSTMを使用し、画像データを使用しないため環境変化へのロバスト性に欠ける
Bi-ACTの位置づけACTとバイラテラル制御ベースの模倣学習を組み合わせ、画像データも統合

II-B. Action Chunking with Transformer

項目内容
ACTの概要CVAEを使用してシーンをモデル化し、マルチモーダル入力からアクション系列(チャンク)を予測
利点予測アクションを複数時間ステップで時間的に集約し、累積誤差と分布外状態での予測不能な応答を軽減
One ACT Playエンドエフェクタの位置・姿勢と画像を入力として使用(ACTは関節角度と画像)
ACT/One ACT Playの限界データ収集やロボット操作時に力情報を使用しない
バイラテラル制御の可能性位置と力の両方を同時管理することで、データ収集の品質と自律タスクの成功率を向上可能

III. CONTROL SYSTEM

III-A. Controller

  • 各軸で位置と力の制御を採用
  • エンコーダから角度情報を取得し、微分により角速度を算出
  • **外乱オブザーバ(DOB)**で外乱トルクを計算
  • **力反作用オブザーバ(RFOB)**でトルク応答値を推定

III-B. Bilateral Control

項目内容
基本原理オペレータと制御対象間で位置・力・その他の情報を共有
制御目標①位置追従: θ_l - θ_f = 0、②作用反作用: τ_l + τ_f = 0
自律運転時学習済みNNモデルがリーダーの代わりとなり、リーダーの応答を予測してフォロワーを制御

IV. PROPOSED METHOD (Bi-ACT)

IV-A. Overview

  • ACTの手法とバイラテラル制御ベースの模倣学習の原理を統合
  • 入力: グリッパー・俯瞰カメラからの画像、フォロワーロボットの関節角度・角速度・トルク
  • 出力: リーダーロボットの関節角度・角速度・トルクの次ステップ予測

IV-B. Data Collection

  • バイラテラル制御でデータ収集(オペレータがフォロワーロボットの環境を感じながら操作)
  • リーダー・フォロワー両方の関節角度・角速度・トルクと俯瞰・グリッパーカメラの画像を記録
  • 力情報の追加により、物体の重さや質感の違いを学習時に考慮可能

IV-C. Learning Architecture

項目詳細
画像入力2枚のRGB画像(360×640): グリッパーカメラと俯瞰カメラ
関節データ入力フォロワーの5関節×3種類(角度、角速度、トルク)= 15次元ベクトル
出力k × 15テンソル(リーダーの次kステップのアクション)
制御への変換出力されたリーダーのアクションをコントローラに送り、フォロワーロボットの各関節に必要な電流を計算

IV-D. Execution to Robot Arm

  • 出力データ(各時間ステップでの関節角度・速度・トルク)をバイラテラル制御システムで電流に変換
  • アクション結果の更新周波数: 100Hz
  • モデルはkステップごとに実行し、次のkステップの予測を生成

V. EXPERIMENTS

V-A. Hardware

項目詳細
ロボットアームOpenMANIPULATOR-X(ROBOTIS製)
自由度4 DoF + グリッパー用1 DoF
制御周期1000Hz
カメラRGBカメラ2台(俯瞰、グリッパー)

V-B. Environment Setting

タスク1: Pick-and-Place

  • 目的: 様々な形状・重さ・質感の物体をピックエリアからプレースエリアへ移動
  • ピックエリア: 0.015m四方のスタンド
  • プレースエリア: 直径0.07mの円形
  • 距離: 0.285m
  • 学習用オブジェクト: フォームボール、ソフトボール
  • 未学習オブジェクト: 卓球ボール、アイクリーム、カヌレ、サッカーボール、プラスチックピーマン、ハチミツボトル、接着剤瓶

タスク2: Put-in-Drawer

  • 目的: 物体をピックエリアから引き出しの中へ移動
  • 引き出し: 幅0.16m、ハンドル0.01×0.03m
  • ハンドルの摩擦が大きく、力の誤差で開閉失敗のリスクあり

V-C. Training Dataset

タスクエピソード数時間/タスク総タイムステップ
Pick-and-Place50(2オブジェクト×25試行)8.4〜9.3秒44,184以上
Put-in-Drawer5019.5〜22.4秒97,972
  • ロボット制御周波数: 1000Hz、カメラ: 約200Hz
  • 学習データは100Hzに調整(モデル推論周期に合わせる)

V-D. Experimental Results

Pick-and-Place結果:

オブジェクトBi-ACT(提案手法)Bi-ACT(力なし)
ソフトボール(学習済み)100%80%
フォームボール(学習済み)100%100%
卓球ボール(未学習)100%100%
アイクリーム(未学習)100%50%
カヌレ(未学習)80%80%
サッカーボール(未学習)90%80%
ハチミツボトル(未学習)90%90%
プラスチックピーマン(未学習)80%70%
接着剤瓶(未学習)80%50%

重要な発見:

  • 力なしモデルは小さい物体には有効だが、大きい・変形しやすい・不規則な形状の物体では性能低下
  • アイクリームと接着剤瓶(液体入りで重量分布が不安定)で最も顕著な差が出現
  • 力フィードバックは複雑な形状や様々な硬さの物体への適応に重要

Put-in-Drawer結果:

  • 全ステップ(Open, Pick, Move, Place, Close)で100%成功率
  • 長時間タスクでもロバストで信頼性の高い動作を実証

VI. CONCLUSIONS

  • Bi-ACTを提案: バイラテラル制御のロバスト性とACTアーキテクチャの計算能力を組み合わせ、位置とトルク情報を処理
  • Bi-ACTは力なし手法と比較して、多様なデータセットで有意に優れた性能を発揮
  • 実世界実験で有効性を検証

今後の課題:

  1. ロバスト性と適応性: 照明条件の変化、物体認識、動的環境への適応
  2. マルチモーダルセンサ統合: 視覚、触覚、固有受容感覚の統合
  3. 多様なロボットプラットフォームへの汎化: 異なるアームモデルやセンサ構成での検証