• モデル構造: 7Bパラメータのマルチモーダル言語モデル(LLM)を用い、連続触覚画像情報を合成画像としてエンコードした触覚特徴とテキスト条件からロボット動作を生成するアプローチ。触覚配列を「合成触覚画像」に変換し、画像エンコーダで処理することで連続的な触覚信号を扱えるようにしている。その上で言語条件下の行動生成を行う。
  • 応用領域: 積み上げ作業などコンタクトが重要な細密作業(フィンガーチップ型ペグインホール組立)。言語指示に基づく微細組立タスクで、従来の模倣学習法より高い成功率と精度を達成し、組立隙間が異なる未知条件にも85%以上の成功率で一般化した。
  • データセット: 新規収集のタッチ・アクション・指示データセット。フィンガーチップペグインホール組立タスク向けに、連続触覚シーケンス(24kシーケンス)とそれに対応するロボット動作(軌道)および言語指示をシミュレータ上で生成・収集した。

Abstract

項目内容
提案手法Tactile-Language-Action(TLA)モデル:連続触覚フィードバックをクロスモーダル言語グラウンディングで処理し、接触集約シナリオで堅牢なポリシー生成を実現
データセットフィンガーチップペグインホール組立用に24k対の触覚-動作-指示データを収集
成果従来の模倣学習手法(Diffusion Policyなど)を大幅に上回る動作生成・精度を達成、未知の組立クリアランスやペグ形状に対して85%以上の成功率で汎化

I Introduction

項目内容
背景触覚知覚は接触集約型ロボットマニピュレーションに不可欠。精密組立タスクでは物体表面の微小な変化を感知し、接触姿勢を微調整する必要がある
既存手法の課題(1) 特定データセットで訓練された専用モデルに依存し汎化性能が限定的、(2) 現行VLAモデルは視覚タスク中心で触覚モダリティが欠如
技術的課題(1) 接触集約マニピュレーション用の触覚-動作-指示データセットの欠如、(2) 適切な触覚-言語-動作モデルの不在
提案の核心連続触覚画像を合成触覚画像にエンコードし、画像エンコーダで処理。言語グラウンディングによる推論と組み合わせてロボット動作を生成
主要成果単一ステップ動作精度・実際の組立成功率で従来手法を大幅に上回る。2.0mmクリアランスのみで訓練し、1.6mm・1.0mmクリアランスでも85%以上の成功率を達成

II-A VLM for Robot Manipulation

項目内容
RT-2操作データセットの動作をトークンとして扱い、VLMをファインチューニングしたVision-Language-Action(VLA)モデル(クローズドソース)
オープンソースRoboFlamingo、OpenVLAがRT-2と同様のコンセプトで公開
GR-1/GR-2インターネット規模の動画データセットで事前学習し、マニピュレーションデータセットでファインチューニング
RDT-1B/PIDiffusionコンセプトを統合したVLAモデル
限界上記モデルは視覚ベースであり、単純な押す・引く・掴んで置くタスクに限定。接触集約型タスクへの適用は未探求

II-B Tactile-Language Model in Robotics

項目内容
既存研究Fu et al.: ChatGPTでテクスチャ-触覚データセット構築、材料理解能力を探索。Cheng et al.: Touch100k大規模データセットを提案
既存手法の限界データセットがロボット動作を含まない、または触覚を補助的モダリティとして扱い、知覚のみまたは単純な把持タスクに限定
FuSe触覚情報をVLAモデルに統合しマルチモーダルロボットポリシーを獲得
TLAの差別化事前学習済み言語モデルに基づき触覚知覚と動作の接続を確立。触覚知覚のみに基づく初の言語-動作モデル

III Dataset

項目内容
タスクGelStereo 2.0視触覚センサ搭載ロボットによるペグインホール組立
シミュレーションNVIDIA Isaac Gym上に構築、有限要素法(FEM)で触覚センサ変形をシミュレート
シミュレーションからリアルへの橋渡し実センサから取得した触覚画像をテクスチャマッピングに使用し高忠実度を実現
タスクフローグリッパーがペグを把持→ランダムな3自由度ミスアライメント(x軸、y軸、z軸回転)で穴上部へ移動→挿入試行(衝突時は失敗、リフトアップして再試行)→最大15回試行
ラベル生成ペグ-穴間のポーズエラーから動作ラベル(Δx, Δy, Δrz)を作成、クリップ関数で安定性向上(δ=1mm)
データ形式<|im_start|>, <|im_end|>で対話ラウンド、<|vision_start|>, <|vision_end|>で視覚入力を区切る指示形式

IV Tactile-Language-Action Model

IV-A Tactile Encoder

項目内容
課題視触覚センサの触覚情報は画像形式、グリッパーの接触状態に応じて連続変化するため時間的変動の抽出が必要
解決策2つの触覚画像シーケンスを1枚の画像に合成し、時間情報を空間情報に変換してViTベース特徴抽出を容易化
入力構成左右フィンガーチップの4タイムスタンプ分計8画像を3×3グリッドに配置(最後のグリッドは白画像)、616×616にリサイズ
エンコーダQwen2-VLのViTを使用、パッチサイズ14で1936の触覚トークンを生成、MLPで2×2範囲を1トークンに圧縮

IV-B Action Prediction with Language Model

項目内容
バックボーンQwen2 7B言語モデル(TLAデータセットでファインチューニング)
入力触覚トークン+言語トークン(触覚エンコーダとトークナイザでエンコード)
数値エンコーディング従来手法と異なり数値エンコーディングスキームを維持し、事前学習で獲得した数値知識を活用
動作表現の簡略化小数を含む動作データをスケーリングし整数に丸めることでトークン化を効率化(Agt = Araw · s)

IV-C Training and Inference

項目内容
訓練戦略触覚エンコーダのパラメータを凍結、LoRA(Low-Rank Adaptation)でQwen2 7Bを効率的にファインチューニング
損失関数Next Token Prediction損失を使用
推論触覚観測と指示テキストから動作の確率分布を逐次予測、ビームサーチで終了トークンまで生成、Action-De-Tokenizerで自然言語テキストから浮動小数点数に変換

V Experiment

V-A Baseline and Metrics

比較手法説明
Behavior Cloning (BC)ResNet-50をポリシーネットワークとして使用、触覚画像入力からロボット動作を出力
Diffusion Policy (DP)条件付きデノイジング拡散過程でペグインホール組立ポリシーを学習
Single-Peg TLA (SP-TLA)四角ペグ挿入データセットで訓練したTLA
Multi-Peg TLA (MP-TLA)四角・三角ペグ挿入データセットで訓練したTLA
評価指標説明
Goal Convergence Rate (GCR)x, y, rz方向すべてで正しい出力動作の割合
L1 Distance正しい動作のステップ長精度を評価

V-B Comparison on Single-Peg Inserting Tasks

項目内容
実験設定8k四角ペグ挿入データ(訓練6k、テスト2k)、各サンプルは8触覚画像(左右フィンガーチップ×タイムステップ4)、8 Nvidia A6000 GPUで20エポック訓練
結果TLAはベースラインより多くの正しい動作を生成、x方向のL1距離は次点手法比78%削減
考察TLAはx-y平面での平行移動で良好な性能。y軸方向の予測は2D触覚画像の制限により困難(グリッパーに垂直な方向の情報表現が貧弱)

V-C Comparison on Multi-Peg Inserting Tasks

項目内容
実験設定16kサンプル(四角・三角ペグ各8k)で訓練、追加8kサンプル(四角/三角4k、丸/六角4k)で評価
In-Distribution (ID)TLAは既知ペグで最低L1エラーを達成、正確かつ安定したステップ長
Out-of-Distribution (OOD)TLAはIDセットと同等の性能を維持、未知ペグ形状への強い汎化能力を発揮。従来手法は分布シフトで顕著な性能低下

V-D Robotic Insertion Tasks

実験条件結果
クリアランス別(2.0mm/1.6mm/1.0mm)TLAは成功率・操作効率で優れた性能、次点手法比50%高い成功率。1.0mmの困難なクリアランスでも優れた汎化性能
ペグ種類別(四角/三角/丸/六角)両TLAモデルがベースラインを上回る成功率・ステップ数。OODセットではMP-TLAがSP-TLAより高性能(複数ペグ訓練による汎化向上)
失敗ケース分析三角ペグ挿入で失敗:三角穴はx軸許容偏差が3d、y軸が2.3dと非対称。2D触覚画像のy軸方向表現の貧弱さと相まって困難

VI Discussion and Limitations

項目内容
成果TLAはクロスモーダルファインチューニングで言語グラウンディングを通じた汎化触覚スキル獲得を実現。フィンガーチップ触覚ペグインホール組立で従来手法を大幅に上回り、クリアランス・ペグ形状のバリエーションに強い汎化性能
限界1触覚の時間情報を厳密に捕捉せず空間配置でエンコード。連続触覚データの逐次的性質を十分に活用できていない可能性
限界2触覚信号形式の選択が基本的。2D触覚画像、2D接触深度マップ、3D触覚点群など異なる表現の統合が今後の課題
限界3現在の動作デトークン化プロセスが単純。より洗練されたデコード機構による解釈可能性・精度向上が必要
今後の展望実環境へのTLA展開によるSim-to-Real汎化評価、実世界の不確実性下でのポリシー転移性能検証