Abstract
- 接触を多く伴う操作タスク(contact-rich manipulation)では、人間は視覚ガイドによる手の軌道の不正確さを補うために、対象物に時変の力を加える
- 現行のロボット学習アルゴリズムは軌道ベースの方策に主眼を置いており、力に関連するスキルの学習にはあまり注目されていない
- ForceMimic: 力中心のロボット学習システムを提案
- ForceCapture: 自然で力を意識したロボット不要のデモ収集システム
- HybridIL: 力-位置ハイブリッド制御を用いた模倣学習アルゴリズム
- ForceCapture使用時:ズッキーニの皮むきを約5分で完了(力フィードバックテレオペは13分以上かかり、タスク完了に苦戦)
- 野菜の皮むきタスクにおいて、最先端の純粋視覚ベース模倣学習と比較して成功率が54.5%向上
I. Introduction
背景・動機
- 人間は力覚センシングと細かい筋力制御を活用して、把持・持ち上げ・皮むき等の操作を達成
- 力の利用により視覚ベースの動作計画による誤差を検出・修正可能
- 神経科学の知見:中枢神経系は力負荷を予測し、この動力学情報を人間の運動内部モデルに融合
課題
- 力中心の操作デモデータの収集が困難
- インターネット上の人間動画には力データが記録されていない
- テレオペレーションは自然な操作体験を提供できず、スムーズな動作実行と精密な力制御に悪影響
提案手法
- ForceMimic: 自然で力を意識したロボット不要のデモ収集体験と力中心の模倣学習を提供
- ForceCapture: ラチェットロックと重力補償により、純粋な相互作用レンチ(力とトルクの組み合わせ)を記録
- HybridIL: レンチ-位置パラメータを出力する力意識方策を訓練し、ハイブリッド力-位置制御で実行
貢献
- ForceCapture:自然で力を意識した現場での力リアリズム収集体験を提供するハンドヘルドロボット不要データ収集システム
- HybridIL:直交ハイブリッド力-位置制御プリミティブを用いてモデル予測に適合する力中心模倣学習モデル
- ズッキーニの皮むき実験で最先端純視覚ベース模倣学習より堅牢な性能を達成
II. Related Work
Robotic Data Collection System
| 手法 | 特徴 | 課題 |
|---|---|---|
| テレオペレーション | ハプティックデバイス、エクソスケルトン、VR、リーダー-フォロワー方式等のUI使用 | 人間とロボット間の非直感的な操作性、力フィードバック追加時も同様 |
| ハンドヘルドグリッパー | 野外学習を可能に、より自然な体験 | 相互作用力が記録されず、方策モデルが相互作用を意識しない |
Robot Imitation Learning
| 手法 | 概要 |
|---|---|
| Behavior Cloning (BC) | 観測から対応するロボット動作への方策マッピングを教師あり学習で直接学習 |
| ニューラルネットワーク方策 | 2D生画像ピクセルを行動空間にマッピング |
| Non-parametricアプローチ | 最近傍法でデモデータセットから行動を取得 |
| Diffusion Policy | 視覚表現を条件としてdiffusionモデルで行動軌道をデノイズ |
- 現行の模倣学習は軌道ベースのスキルに主眼を置き、相互作用力等の行動空間の探索が不足
- 力知覚・制御は操作タスクで重要な役割を果たし、視覚ガイドと補完的な情報を提供
- 本論文:直交ハイブリッド力-位置制御プリミティブを用いてモデル予測のレンチ-位置パラメータに適合する新パラダイムを提案
Robot Peeling
- 皮むきは日常生活動作(IADL)として重要だが、ロボット研究分野では比較的未開拓
- 既存手法の多くは事前設定の仮定に大きく依存、または個別モジュールと事前設定スキルに分離
- 他の研究はナイフや器用な手を使用するが、本研究ではピーラーを使用
- 本研究のアプローチ: 皮むきタスクをエンドツーエンド学習のための力関連スキルとして扱う
III. Method
パイプライン概要
- ForceCapture(III-A)で力中心の人間デモデータを自然に収集
- ロボット不要データを(擬似)ロボットデータに変換しドメインギャップを埋める(III-B)
- HybridIL(III-C)でレンチ-姿勢軌道を予測し、ハイブリッド力-位置制御で適合
III-A. Hardware Design: ForceCapture
設計目標
- スケーラビリティ: 低コスト、異なる力センサとの互換性、製造・メンテナンスの容易さ
- 現場での力リアリズム: 力フィードバックによる存在感ではなく、人間操作からリアルタイム力データを直接取得
- 人間工学的快適さ: 適切な重心と操作の利便性、自然な操作習慣を妨げない
構造
- 2バージョン:固定ツール版とアダプティブグリッパー版
- コア:エンドエフェクタとユーザーの把持ハンドル間に配置された6軸力センサ(エフェクタ-環境間相互作用レンチを取得)
- SLAMカメラ:力センサ中心付近に配置、相互作用中の動作データを記録
- ラック&ピニオン機構:グリッパーの同期移動、エンコーダで開口距離を記録
特殊機能
- 一方向ロック機構:指を閉じると指先から開けない、レバー機構でのみ解除可能
- 重心がハンドル上方に位置し、人間の手の自然な力適用習慣に適合
仕様
- 主要部品は3Dプリント製造、部品とエンコーダの総コスト約$50
- グリッパー装着時の重量0.8kg(うち力センサ0.5kg、アクセサリ0.3kg)
III-B. Data Collection and Transfer
データ収集システム構成
| センサ | サンプリング周波数 |
|---|---|
| 6軸F/Tセンサ | 1000 Hz |
| RealSense T265 SLAMカメラ | 200 Hz |
| RealSense L515 RGB-Dカメラ | 30 Hz |
| エンコーダ(グリッパー版) | 30 Hz |
- 各センサは独自の周波数でデータ収集、処理時にL515観測周波数に合わせて全周波数を整列
重力補償
- ForceCapturenは相互作用力のみを記録するよう設計
- 力センサはツールの重力・慣性力を含む合成力を測定
- 準静的仮定:各位置で力が静的平衡状態
- 準静的にForceCapturenを動かしながら姿勢とレンチデータを記録
- 過決定連立方程式からツールの重心と重量を最小二乗法で推定
点群処理
- L515カメラのRGB-D画像を点群に逆投影
- 操作背景とエンドエフェクタ座標系上方の点群を均一に除外
- エンドエフェクタとオブジェクトの点群のみを保持
- 点群を10,000にボクセル化
III-C. Learning Algorithm: HybridIL
概要
- エンドツーエンドの力中心模倣学習手法
- 知覚から力-位置ハイブリッド制御戦略へマッピング
入力・出力
- 入力:点群(MLPエンコーダで1次元視覚特徴に)→ロボットTCP姿勢と連結して複数モダリティの結合表現
- 出力:修正diffusion policyで次の20タイムステップの位置とレンチパラメータを予測
制御プリミティブ選択
| 予測力 | 使用プリミティブ |
|---|---|
| 6N未満 | IKベース関節位置コントローラ |
| 連続して6N以上 | ハイブリッド力-位置コントローラ |
直交力-位置マッチング
- レンチと位置制御は直交である必要あり
- モデルは直交性を明示的にモデル化せず、直交力-位置ハイブリッドコントローラで適合
- 力が連続して6Nを超える力-位置アクション:前後の位置情報から運動方向を決定
- 対応する予測力情報を運動方向の直交平面に投影→実行時の力制御パラメータを定義
- ハイブリッド力-位置制御の初期ステップ:エンドエフェクタが未接触の場合、力制御の逆方向に押し付け制御で安定接触を達成
IV. Experiments
ズッキーニ皮むき実験でForceCapturenのデータ収集効率とHybridILの有効性を検証。全データはロボットを介さず現場で収集。
IV-A. Collection Efficiency: ForceCapture vs. Teleoperation
実験設定
- 単腕でズッキーニを皮むきするケーススタディ
- 手順:ピーラーを拾う→スタンド上のズッキーニを皮むき→ピーラーを置く→ズッキーニを掴んで向きを調整→野菜全体を皮むき
- グリッパー版ForceCapturenを使用
- テレオペレーション設定はRH20Tの構成に従う
結果比較
| 手法 | 所要時間 | 備考 |
|---|---|---|
| ForceCapture | 約5分 | 直接人間の皮むきに非常に近い |
| テレオペレーション | 約13分以上 | ForceCapturenの約3倍 |
- テレオペレーション:追加トレーニングが必要、作業空間の混乱による操作エラーで3回中断
- ForceCapture:最小限のトレーニングで習熟可能(1回の試行後)、中断なし
- ForceCapturenは広範なユーザートレーニングやロボット関与なしに、より自然で合理化されたデータ収集プロセスを実現
IV-B. Manipulation Performance: Zucchini Peeling
Setup
- 皮むき動作をエンドツーエンドスキル学習タスクとして定式化
- 固定ツール版ForceCapturenを使用
- 左グリッパーでズッキーニを固定、右ForceCapturenで皮むき
- ロボット実験:L515 RGB-Dカメラをロボットアーム外部に設置
- 左ロボット:ルールベースでズッキーニを安定化(グリッパー装備)
- 右アーム:ForceCapturenと同一の固定ピーラーでHybridILによる皮むきスキルを実行
- ロボットアーム:Flexiv Rizon 4(精密力センシング・力制御機能搭載)
データセット
- 15本のズッキーニを処理、438の皮むきスキルセグメント、合計30,199アクションシーケンス
- アクションは知覚データに対して3タイムステップ先行
- 全モデル500エポック訓練
Methods(比較手法)
| 手法 | 入力 | 出力 |
|---|---|---|
| Raw DP | 生視覚知覚 + ロボット姿勢 | エンドエフェクタ姿勢シーケンス |
| Force DP | 視覚知覚 + ロボット姿勢 + ロボット力覚 | エンドエフェクタ姿勢シーケンス |
| Force+Hybrid DP | 視覚知覚 + ロボット姿勢 + ロボット力覚 | 姿勢 + レンチシーケンス |
| HybridIL | 視覚知覚 + ロボット姿勢 | 姿勢 + レンチシーケンス |
- Raw DPとHybridILは20回、他は性能不良のため10回テスト
Metrics(評価基準)
- 動作成功:軌道が正しく、ズッキーニを傷つけずに任意の長さの皮を除去
- 皮むき成功:10cm以上の連続した皮を生成
Results
| 手法 | 動作成功率 | 皮むき成功率(>10cm) |
|---|---|---|
| Raw DP | 80% | 55% |
| Force DP | 60% | 10% |
| Force+Hybrid DP | 80% | 20% |
| HybridIL | 100% | 85% |
Raw DPの失敗モード
- ②過度な力で皮むき→ズッキーニ損傷(底部破損事例あり)
- ④ズッキーニに接触せず皮むき不可
- ①10cm未満の皮むき長さ
- ③出力姿勢間の不連続性による皮むき中断
HybridILの失敗モード
- ①③出力力-位置パラメータの早期終了→ハイブリッド力制御からIKベース関節位置制御への早期切り替え→皮むき不連続
力入力モデルの性能不良の分析
- Force DPとForce+Hybrid DP:ズッキーニへの接触までの初期動作は概ね正確
- 接触後は正しい姿勢と力を予測できず、成功した皮むきがほぼ不可能
- 原因:
- Raw DPは皮むき成功するも相互作用力が著しく高い(平均約20N、一部で40N超)
- 訓練データセットの相互作用力は約10Nと低い
- 入力力とデータセット力分布の不一致→正しいアクション予測困難
- ロボット展開時とデータ収集時の力相互作用コントローラの不整合が潜在的要因
HybridILの利点
- 平均相互作用力9Nを維持、モデル予測力に近い
- 均一な厚さと幅で皮むき
- ForceCapturenで収集した力データを感覚入力として効果的に活用することは未解決課題で今後の研究方向
V. Conclusion and Discussions
まとめ
- ForceMimic: 力中心のロボット学習を推進するシステム
- ForceCapture: スケーラブルな現場力-位置データ収集システム
- HybridIL: 力-相互作用制御プリミティブに基づき模倣学習タスクで力-位置パラメータに適合する手法
- ズッキーニ皮むきタスクでシステムと手法の有効性を実証
今後の研究方向
- マルチモーダル表現の高度化: 現在は単純なMLPで点群・ロボット姿勢・力を表現。将来的には視覚・力・ロボット状態データを組み合わせたより高度なマルチモーダル表現を探索し、多様なスキルへの汎化を改善
- 制御プリミティブの拡張: 現在は2つの制御プリミティブのみ使用。より多くの制御プリミティブでモデル出力との適合を向上、モデル自体が最適なプリミティブと対応パラメータを事前に予測する可能性
- タスクの拡張: 現在は単一の皮むきスキルのみで成功を実証。より多くの力指向タスクへのシステム拡張
Acknowledgements
- 上海科学技術委員会、中国国家重点研究開発プロジェクト、上海人工知能研究所XPLORER PRIZE、中国国家自然科学基金の支援
- FlexivによるF/Tセンサのハードウェア提供