- モデル構造: 7Bパラメータのマルチモーダル言語モデル(LLM)を用い、連続触覚画像情報を合成画像としてエンコードした触覚特徴とテキスト条件からロボット動作を生成するアプローチ。触覚配列を「合成触覚画像」に変換し、画像エンコーダで処理することで連続的な触覚信号を扱えるようにしている。その上で言語条件下の行動生成を行う。
- 応用領域: 積み上げ作業などコンタクトが重要な細密作業(フィンガーチップ型ペグインホール組立)。言語指示に基づく微細組立タスクで、従来の模倣学習法より高い成功率と精度を達成し、組立隙間が異なる未知条件にも85%以上の成功率で一般化した。
- データセット: 新規収集のタッチ・アクション・指示データセット。フィンガーチップペグインホール組立タスク向けに、連続触覚シーケンス(24kシーケンス)とそれに対応するロボット動作(軌道)および言語指示をシミュレータ上で生成・収集した。
Abstract
| 項目 | 内容 |
|---|
| 提案手法 | Tactile-Language-Action(TLA)モデル:連続触覚フィードバックをクロスモーダル言語グラウンディングで処理し、接触集約シナリオで堅牢なポリシー生成を実現 |
| データセット | フィンガーチップペグインホール組立用に24k対の触覚-動作-指示データを収集 |
| 成果 | 従来の模倣学習手法(Diffusion Policyなど)を大幅に上回る動作生成・精度を達成、未知の組立クリアランスやペグ形状に対して85%以上の成功率で汎化 |
I Introduction
| 項目 | 内容 |
|---|
| 背景 | 触覚知覚は接触集約型ロボットマニピュレーションに不可欠。精密組立タスクでは物体表面の微小な変化を感知し、接触姿勢を微調整する必要がある |
| 既存手法の課題 | (1) 特定データセットで訓練された専用モデルに依存し汎化性能が限定的、(2) 現行VLAモデルは視覚タスク中心で触覚モダリティが欠如 |
| 技術的課題 | (1) 接触集約マニピュレーション用の触覚-動作-指示データセットの欠如、(2) 適切な触覚-言語-動作モデルの不在 |
| 提案の核心 | 連続触覚画像を合成触覚画像にエンコードし、画像エンコーダで処理。言語グラウンディングによる推論と組み合わせてロボット動作を生成 |
| 主要成果 | 単一ステップ動作精度・実際の組立成功率で従来手法を大幅に上回る。2.0mmクリアランスのみで訓練し、1.6mm・1.0mmクリアランスでも85%以上の成功率を達成 |
II-A VLM for Robot Manipulation
| 項目 | 内容 |
|---|
| RT-2 | 操作データセットの動作をトークンとして扱い、VLMをファインチューニングしたVision-Language-Action(VLA)モデル(クローズドソース) |
| オープンソース | RoboFlamingo、OpenVLAがRT-2と同様のコンセプトで公開 |
| GR-1/GR-2 | インターネット規模の動画データセットで事前学習し、マニピュレーションデータセットでファインチューニング |
| RDT-1B/PI | Diffusionコンセプトを統合したVLAモデル |
| 限界 | 上記モデルは視覚ベースであり、単純な押す・引く・掴んで置くタスクに限定。接触集約型タスクへの適用は未探求 |
II-B Tactile-Language Model in Robotics
| 項目 | 内容 |
|---|
| 既存研究 | Fu et al.: ChatGPTでテクスチャ-触覚データセット構築、材料理解能力を探索。Cheng et al.: Touch100k大規模データセットを提案 |
| 既存手法の限界 | データセットがロボット動作を含まない、または触覚を補助的モダリティとして扱い、知覚のみまたは単純な把持タスクに限定 |
| FuSe | 触覚情報をVLAモデルに統合しマルチモーダルロボットポリシーを獲得 |
| TLAの差別化 | 事前学習済み言語モデルに基づき触覚知覚と動作の接続を確立。触覚知覚のみに基づく初の言語-動作モデル |
III Dataset
| 項目 | 内容 |
|---|
| タスク | GelStereo 2.0視触覚センサ搭載ロボットによるペグインホール組立 |
| シミュレーション | NVIDIA Isaac Gym上に構築、有限要素法(FEM)で触覚センサ変形をシミュレート |
| シミュレーションからリアルへの橋渡し | 実センサから取得した触覚画像をテクスチャマッピングに使用し高忠実度を実現 |
| タスクフロー | グリッパーがペグを把持→ランダムな3自由度ミスアライメント(x軸、y軸、z軸回転)で穴上部へ移動→挿入試行(衝突時は失敗、リフトアップして再試行)→最大15回試行 |
| ラベル生成 | ペグ-穴間のポーズエラーから動作ラベル(Δx, Δy, Δrz)を作成、クリップ関数で安定性向上(δ=1mm) |
| データ形式 | <|im_start|>, <|im_end|>で対話ラウンド、<|vision_start|>, <|vision_end|>で視覚入力を区切る指示形式 |
IV Tactile-Language-Action Model
IV-A Tactile Encoder
| 項目 | 内容 |
|---|
| 課題 | 視触覚センサの触覚情報は画像形式、グリッパーの接触状態に応じて連続変化するため時間的変動の抽出が必要 |
| 解決策 | 2つの触覚画像シーケンスを1枚の画像に合成し、時間情報を空間情報に変換してViTベース特徴抽出を容易化 |
| 入力構成 | 左右フィンガーチップの4タイムスタンプ分計8画像を3×3グリッドに配置(最後のグリッドは白画像)、616×616にリサイズ |
| エンコーダ | Qwen2-VLのViTを使用、パッチサイズ14で1936の触覚トークンを生成、MLPで2×2範囲を1トークンに圧縮 |
IV-B Action Prediction with Language Model
| 項目 | 内容 |
|---|
| バックボーン | Qwen2 7B言語モデル(TLAデータセットでファインチューニング) |
| 入力 | 触覚トークン+言語トークン(触覚エンコーダとトークナイザでエンコード) |
| 数値エンコーディング | 従来手法と異なり数値エンコーディングスキームを維持し、事前学習で獲得した数値知識を活用 |
| 動作表現の簡略化 | 小数を含む動作データをスケーリングし整数に丸めることでトークン化を効率化(Agt = Araw · s) |
IV-C Training and Inference
| 項目 | 内容 |
|---|
| 訓練戦略 | 触覚エンコーダのパラメータを凍結、LoRA(Low-Rank Adaptation)でQwen2 7Bを効率的にファインチューニング |
| 損失関数 | Next Token Prediction損失を使用 |
| 推論 | 触覚観測と指示テキストから動作の確率分布を逐次予測、ビームサーチで終了トークンまで生成、Action-De-Tokenizerで自然言語テキストから浮動小数点数に変換 |
V Experiment
V-A Baseline and Metrics
| 比較手法 | 説明 |
|---|
| Behavior Cloning (BC) | ResNet-50をポリシーネットワークとして使用、触覚画像入力からロボット動作を出力 |
| Diffusion Policy (DP) | 条件付きデノイジング拡散過程でペグインホール組立ポリシーを学習 |
| Single-Peg TLA (SP-TLA) | 四角ペグ挿入データセットで訓練したTLA |
| Multi-Peg TLA (MP-TLA) | 四角・三角ペグ挿入データセットで訓練したTLA |
| 評価指標 | 説明 |
|---|
| Goal Convergence Rate (GCR) | x, y, rz方向すべてで正しい出力動作の割合 |
| L1 Distance | 正しい動作のステップ長精度を評価 |
V-B Comparison on Single-Peg Inserting Tasks
| 項目 | 内容 |
|---|
| 実験設定 | 8k四角ペグ挿入データ(訓練6k、テスト2k)、各サンプルは8触覚画像(左右フィンガーチップ×タイムステップ4)、8 Nvidia A6000 GPUで20エポック訓練 |
| 結果 | TLAはベースラインより多くの正しい動作を生成、x方向のL1距離は次点手法比78%削減 |
| 考察 | TLAはx-y平面での平行移動で良好な性能。y軸方向の予測は2D触覚画像の制限により困難(グリッパーに垂直な方向の情報表現が貧弱) |
V-C Comparison on Multi-Peg Inserting Tasks
| 項目 | 内容 |
|---|
| 実験設定 | 16kサンプル(四角・三角ペグ各8k)で訓練、追加8kサンプル(四角/三角4k、丸/六角4k)で評価 |
| In-Distribution (ID) | TLAは既知ペグで最低L1エラーを達成、正確かつ安定したステップ長 |
| Out-of-Distribution (OOD) | TLAはIDセットと同等の性能を維持、未知ペグ形状への強い汎化能力を発揮。従来手法は分布シフトで顕著な性能低下 |
V-D Robotic Insertion Tasks
| 実験条件 | 結果 |
|---|
| クリアランス別(2.0mm/1.6mm/1.0mm) | TLAは成功率・操作効率で優れた性能、次点手法比50%高い成功率。1.0mmの困難なクリアランスでも優れた汎化性能 |
| ペグ種類別(四角/三角/丸/六角) | 両TLAモデルがベースラインを上回る成功率・ステップ数。OODセットではMP-TLAがSP-TLAより高性能(複数ペグ訓練による汎化向上) |
| 失敗ケース分析 | 三角ペグ挿入で失敗:三角穴はx軸許容偏差が3d、y軸が2.3dと非対称。2D触覚画像のy軸方向表現の貧弱さと相まって困難 |
VI Discussion and Limitations
| 項目 | 内容 |
|---|
| 成果 | TLAはクロスモーダルファインチューニングで言語グラウンディングを通じた汎化触覚スキル獲得を実現。フィンガーチップ触覚ペグインホール組立で従来手法を大幅に上回り、クリアランス・ペグ形状のバリエーションに強い汎化性能 |
| 限界1 | 触覚の時間情報を厳密に捕捉せず空間配置でエンコード。連続触覚データの逐次的性質を十分に活用できていない可能性 |
| 限界2 | 触覚信号形式の選択が基本的。2D触覚画像、2D接触深度マップ、3D触覚点群など異なる表現の統合が今後の課題 |
| 限界3 | 現在の動作デトークン化プロセスが単純。より洗練されたデコード機構による解釈可能性・精度向上が必要 |
| 今後の展望 | 実環境へのTLA展開によるSim-to-Real汎化評価、実世界の不確実性下でのポリシー転移性能検証 |