Abstract

  • 接触を多く伴う操作タスク(contact-rich manipulation)では、人間は視覚ガイドによる手の軌道の不正確さを補うために、対象物に時変の力を加える
  • 現行のロボット学習アルゴリズムは軌道ベースの方策に主眼を置いており、力に関連するスキルの学習にはあまり注目されていない
  • ForceMimic: 力中心のロボット学習システムを提案
    • ForceCapture: 自然で力を意識したロボット不要のデモ収集システム
    • HybridIL: 力-位置ハイブリッド制御を用いた模倣学習アルゴリズム
  • ForceCapture使用時:ズッキーニの皮むきを約5分で完了(力フィードバックテレオペは13分以上かかり、タスク完了に苦戦)
  • 野菜の皮むきタスクにおいて、最先端の純粋視覚ベース模倣学習と比較して成功率が54.5%向上

I. Introduction

背景・動機

  • 人間は力覚センシングと細かい筋力制御を活用して、把持・持ち上げ・皮むき等の操作を達成
  • 力の利用により視覚ベースの動作計画による誤差を検出・修正可能
  • 神経科学の知見:中枢神経系は力負荷を予測し、この動力学情報を人間の運動内部モデルに融合

課題

  • 力中心の操作デモデータの収集が困難
  • インターネット上の人間動画には力データが記録されていない
  • テレオペレーションは自然な操作体験を提供できず、スムーズな動作実行と精密な力制御に悪影響

提案手法

  • ForceMimic: 自然で力を意識したロボット不要のデモ収集体験と力中心の模倣学習を提供
  • ForceCapture: ラチェットロックと重力補償により、純粋な相互作用レンチ(力とトルクの組み合わせ)を記録
  • HybridIL: レンチ-位置パラメータを出力する力意識方策を訓練し、ハイブリッド力-位置制御で実行

貢献

  1. ForceCapture:自然で力を意識した現場での力リアリズム収集体験を提供するハンドヘルドロボット不要データ収集システム
  2. HybridIL:直交ハイブリッド力-位置制御プリミティブを用いてモデル予測に適合する力中心模倣学習モデル
  3. ズッキーニの皮むき実験で最先端純視覚ベース模倣学習より堅牢な性能を達成

Robotic Data Collection System

手法特徴課題
テレオペレーションハプティックデバイス、エクソスケルトン、VR、リーダー-フォロワー方式等のUI使用人間とロボット間の非直感的な操作性、力フィードバック追加時も同様
ハンドヘルドグリッパー野外学習を可能に、より自然な体験相互作用力が記録されず、方策モデルが相互作用を意識しない

Robot Imitation Learning

手法概要
Behavior Cloning (BC)観測から対応するロボット動作への方策マッピングを教師あり学習で直接学習
ニューラルネットワーク方策2D生画像ピクセルを行動空間にマッピング
Non-parametricアプローチ最近傍法でデモデータセットから行動を取得
Diffusion Policy視覚表現を条件としてdiffusionモデルで行動軌道をデノイズ
  • 現行の模倣学習は軌道ベースのスキルに主眼を置き、相互作用力等の行動空間の探索が不足
  • 力知覚・制御は操作タスクで重要な役割を果たし、視覚ガイドと補完的な情報を提供
  • 本論文:直交ハイブリッド力-位置制御プリミティブを用いてモデル予測のレンチ-位置パラメータに適合する新パラダイムを提案

Robot Peeling

  • 皮むきは日常生活動作(IADL)として重要だが、ロボット研究分野では比較的未開拓
  • 既存手法の多くは事前設定の仮定に大きく依存、または個別モジュールと事前設定スキルに分離
  • 他の研究はナイフや器用な手を使用するが、本研究ではピーラーを使用
  • 本研究のアプローチ: 皮むきタスクをエンドツーエンド学習のための力関連スキルとして扱う

III. Method

パイプライン概要

  1. ForceCapture(III-A)で力中心の人間デモデータを自然に収集
  2. ロボット不要データを(擬似)ロボットデータに変換しドメインギャップを埋める(III-B)
  3. HybridIL(III-C)でレンチ-姿勢軌道を予測し、ハイブリッド力-位置制御で適合

III-A. Hardware Design: ForceCapture

設計目標

  1. スケーラビリティ: 低コスト、異なる力センサとの互換性、製造・メンテナンスの容易さ
  2. 現場での力リアリズム: 力フィードバックによる存在感ではなく、人間操作からリアルタイム力データを直接取得
  3. 人間工学的快適さ: 適切な重心と操作の利便性、自然な操作習慣を妨げない

構造

  • 2バージョン:固定ツール版とアダプティブグリッパー版
  • コア:エンドエフェクタとユーザーの把持ハンドル間に配置された6軸力センサ(エフェクタ-環境間相互作用レンチを取得)
  • SLAMカメラ:力センサ中心付近に配置、相互作用中の動作データを記録
  • ラック&ピニオン機構:グリッパーの同期移動、エンコーダで開口距離を記録

特殊機能

  • 一方向ロック機構:指を閉じると指先から開けない、レバー機構でのみ解除可能
  • 重心がハンドル上方に位置し、人間の手の自然な力適用習慣に適合

仕様

  • 主要部品は3Dプリント製造、部品とエンコーダの総コスト約$50
  • グリッパー装着時の重量0.8kg(うち力センサ0.5kg、アクセサリ0.3kg)

III-B. Data Collection and Transfer

データ収集システム構成

センササンプリング周波数
6軸F/Tセンサ1000 Hz
RealSense T265 SLAMカメラ200 Hz
RealSense L515 RGB-Dカメラ30 Hz
エンコーダ(グリッパー版)30 Hz
  • 各センサは独自の周波数でデータ収集、処理時にL515観測周波数に合わせて全周波数を整列

重力補償

  • ForceCapturenは相互作用力のみを記録するよう設計
  • 力センサはツールの重力・慣性力を含む合成力を測定
  • 準静的仮定:各位置で力が静的平衡状態
  • 準静的にForceCapturenを動かしながら姿勢とレンチデータを記録
  • 過決定連立方程式からツールの重心と重量を最小二乗法で推定

点群処理

  • L515カメラのRGB-D画像を点群に逆投影
  • 操作背景とエンドエフェクタ座標系上方の点群を均一に除外
  • エンドエフェクタとオブジェクトの点群のみを保持
  • 点群を10,000にボクセル化

III-C. Learning Algorithm: HybridIL

概要

  • エンドツーエンドの力中心模倣学習手法
  • 知覚から力-位置ハイブリッド制御戦略へマッピング

入力・出力

  • 入力:点群(MLPエンコーダで1次元視覚特徴に)→ロボットTCP姿勢と連結して複数モダリティの結合表現
  • 出力:修正diffusion policyで次の20タイムステップの位置とレンチパラメータを予測

制御プリミティブ選択

予測力使用プリミティブ
6N未満IKベース関節位置コントローラ
連続して6N以上ハイブリッド力-位置コントローラ

直交力-位置マッチング

  • レンチと位置制御は直交である必要あり
  • モデルは直交性を明示的にモデル化せず、直交力-位置ハイブリッドコントローラで適合
  • 力が連続して6Nを超える力-位置アクション:前後の位置情報から運動方向を決定
  • 対応する予測力情報を運動方向の直交平面に投影→実行時の力制御パラメータを定義
  • ハイブリッド力-位置制御の初期ステップ:エンドエフェクタが未接触の場合、力制御の逆方向に押し付け制御で安定接触を達成

IV. Experiments

ズッキーニ皮むき実験でForceCapturenのデータ収集効率とHybridILの有効性を検証。全データはロボットを介さず現場で収集。

IV-A. Collection Efficiency: ForceCapture vs. Teleoperation

実験設定

  • 単腕でズッキーニを皮むきするケーススタディ
  • 手順:ピーラーを拾う→スタンド上のズッキーニを皮むき→ピーラーを置く→ズッキーニを掴んで向きを調整→野菜全体を皮むき
  • グリッパー版ForceCapturenを使用
  • テレオペレーション設定はRH20Tの構成に従う

結果比較

手法所要時間備考
ForceCapture約5分直接人間の皮むきに非常に近い
テレオペレーション約13分以上ForceCapturenの約3倍
  • テレオペレーション:追加トレーニングが必要、作業空間の混乱による操作エラーで3回中断
  • ForceCapture:最小限のトレーニングで習熟可能(1回の試行後)、中断なし
  • ForceCapturenは広範なユーザートレーニングやロボット関与なしに、より自然で合理化されたデータ収集プロセスを実現

IV-B. Manipulation Performance: Zucchini Peeling

Setup

  • 皮むき動作をエンドツーエンドスキル学習タスクとして定式化
  • 固定ツール版ForceCapturenを使用
  • 左グリッパーでズッキーニを固定、右ForceCapturenで皮むき
  • ロボット実験:L515 RGB-Dカメラをロボットアーム外部に設置
  • 左ロボット:ルールベースでズッキーニを安定化(グリッパー装備)
  • 右アーム:ForceCapturenと同一の固定ピーラーでHybridILによる皮むきスキルを実行
  • ロボットアーム:Flexiv Rizon 4(精密力センシング・力制御機能搭載)

データセット

  • 15本のズッキーニを処理、438の皮むきスキルセグメント、合計30,199アクションシーケンス
  • アクションは知覚データに対して3タイムステップ先行
  • 全モデル500エポック訓練

Methods(比較手法)

手法入力出力
Raw DP生視覚知覚 + ロボット姿勢エンドエフェクタ姿勢シーケンス
Force DP視覚知覚 + ロボット姿勢 + ロボット力覚エンドエフェクタ姿勢シーケンス
Force+Hybrid DP視覚知覚 + ロボット姿勢 + ロボット力覚姿勢 + レンチシーケンス
HybridIL視覚知覚 + ロボット姿勢姿勢 + レンチシーケンス
  • Raw DPとHybridILは20回、他は性能不良のため10回テスト

Metrics(評価基準)

  1. 動作成功:軌道が正しく、ズッキーニを傷つけずに任意の長さの皮を除去
  2. 皮むき成功:10cm以上の連続した皮を生成

Results

手法動作成功率皮むき成功率(>10cm)
Raw DP80%55%
Force DP60%10%
Force+Hybrid DP80%20%
HybridIL100%85%

Raw DPの失敗モード

  • ②過度な力で皮むき→ズッキーニ損傷(底部破損事例あり)
  • ④ズッキーニに接触せず皮むき不可
  • ①10cm未満の皮むき長さ
  • ③出力姿勢間の不連続性による皮むき中断

HybridILの失敗モード

  • ①③出力力-位置パラメータの早期終了→ハイブリッド力制御からIKベース関節位置制御への早期切り替え→皮むき不連続

力入力モデルの性能不良の分析

  • Force DPとForce+Hybrid DP:ズッキーニへの接触までの初期動作は概ね正確
  • 接触後は正しい姿勢と力を予測できず、成功した皮むきがほぼ不可能
  • 原因
    • Raw DPは皮むき成功するも相互作用力が著しく高い(平均約20N、一部で40N超)
    • 訓練データセットの相互作用力は約10Nと低い
    • 入力力とデータセット力分布の不一致→正しいアクション予測困難
    • ロボット展開時とデータ収集時の力相互作用コントローラの不整合が潜在的要因

HybridILの利点

  • 平均相互作用力9Nを維持、モデル予測力に近い
  • 均一な厚さと幅で皮むき
  • ForceCapturenで収集した力データを感覚入力として効果的に活用することは未解決課題で今後の研究方向

V. Conclusion and Discussions

まとめ

  • ForceMimic: 力中心のロボット学習を推進するシステム
    • ForceCapture: スケーラブルな現場力-位置データ収集システム
    • HybridIL: 力-相互作用制御プリミティブに基づき模倣学習タスクで力-位置パラメータに適合する手法
  • ズッキーニ皮むきタスクでシステムと手法の有効性を実証

今後の研究方向

  1. マルチモーダル表現の高度化: 現在は単純なMLPで点群・ロボット姿勢・力を表現。将来的には視覚・力・ロボット状態データを組み合わせたより高度なマルチモーダル表現を探索し、多様なスキルへの汎化を改善
  2. 制御プリミティブの拡張: 現在は2つの制御プリミティブのみ使用。より多くの制御プリミティブでモデル出力との適合を向上、モデル自体が最適なプリミティブと対応パラメータを事前に予測する可能性
  3. タスクの拡張: 現在は単一の皮むきスキルのみで成功を実証。より多くの力指向タスクへのシステム拡張

Acknowledgements

  • 上海科学技術委員会、中国国家重点研究開発プロジェクト、上海人工知能研究所XPLORER PRIZE、中国国家自然科学基金の支援
  • FlexivによるF/Tセンサのハードウェア提供