Robotic Perception with a Large Tactile-Vision-Language Model for Physical Property Inference

Abstract

物理特性の推論は、ロボットが適応的把持戦略を通じて物体を安全かつ効率的に扱うことを可能にし、ロボットマニピュレーションを大幅に強化
従来のアプローチは触覚または視覚データのいずれかに依存し、特性を完全に捉える能力が限定的
視覚観測と触覚表現をマルチモーダル視覚言語モデル内で統合する新しいクロスモーダル知覚フレームワークを提案
階層的特徴アライメント機構と洗練されたプロンプティング戦略を採用し、真値測定と強く相関する特性固有の予測を実現
35種類の多様な物体で評価し、既存ベースラインを上回り、強力なゼロショット汎化能力を実証

1. Introduction

項目	内容
背景・課題	物体の物理特性の正確な知覚はロボットの信頼性ある操作に不可欠。人間は視覚と触覚を統合して材料特性を推論できるが、ロボットシステムは単一モダリティの制限により同等の性能達成が困難
視覚の限界	幾何的知覚には有効だが、硬さ・弾性・表面粗さなどの内在的材料属性の捕捉に失敗しがち
触覚の限界	豊富な接触情報を提供するが、物理的接触が必要であり、繊細または未知の物体の取り扱いで欠点となる
既存手法の制限	(1) 触覚システムの感覚的制約：複雑な複合構造の材料特性化に不十分、(2) 言語モデルの活用不足：戦略的プロンプティングと効果的マルチモーダル融合による推論能力の未活用

技術的貢献:

Proactive Perception Architecture: 視覚手がかりと過去の触覚情報を融合し、接触前に硬さ・弾性・粗さなどの重要な物理属性を予測
Structured Reasoning Prompts: 物体認識→材料分析→特性定量化へと段階的にマルチモーダル言語モデルを導く推論プロトコル

2.1 Tactile Perception in Robotics

項目	内容
触覚センサ技術	GelSight、GelSlimなどのビジョンベース触覚センサは局所的テクスチャと硬さ推定に優れる
限界	制限されたセンシング領域により、グローバルな物体特性の捕捉が本質的に制限される
表現学習	形状再構成のための触覚-運動学融合や自己教師あり触覚-視覚アライメントなど深層ネットワークを活用したアプローチが進展
本研究の差別化	視覚事前知識を活用して触覚知覚を豊かにするマルチモーダル統合をさらに強化

2.2 Multimodal Fusion Approaches

融合パラダイム	説明	限界
Early Fusion	生の触覚・視覚特徴を直接連結	モダリティ不整合により性能低下
Late Fusion	各モダリティを独立処理	複雑な物理特性推論に必要なクロスモーダル相関の捕捉が限定的
Hybrid Methods	特徴アライメント用対照学習、適応的モダリティ重み付け用アテンション機構など中間融合戦略	大規模なペアド訓練データセットに依存、新規物体・特性への汎化が制限される可能性
本研究の提案	事前学習済み視覚言語モデルを堅牢な知識事前として活用する階層的プロンプティング戦略、特性固有の融合ルール実装によりゼロショット汎化を実現

2.3 Physical Property Reasoning with Large Models

項目	内容
既存手法	GPT-4Vによる力/トルクセンサデータの時系列プロット分析での液体粘度推論、OCTOPIによる触覚画像からの硬さ・粗さ予測
限界	感覚データの受動的解釈に集中、推論プロセスの能動的誘導なし。一般化されたマルチモーダル融合に依存、明示的に構造化された特性中心のプロンプティングなし
本研究の貢献	物理特性推論を逐次的で解釈可能な段階（物体認識→材料分析→定量的評価）に体系的に分解する階層的推論フレームワーク。各特性に関連する感覚手がかりにモデルの注意を能動的に向ける特性固有プロンプト

3. Methodology

全体アーキテクチャ

テキスト・視覚・触覚データを統合したマルチモーダルモデル
入力クエリは専用のモダリティ固有経路に解析
テキスト：言語トークナイザで埋め込み
視覚・触覚画像：ViT-L/14でエンコード、モダリティ固有MLPで共有埋め込み空間に投影
特殊マーカー（<img_start>, <img_end>, <tact_start>, <tact_end>）で埋め込み境界を明示
連結された埋め込みをVicuna-7Bに入力、共同マルチモーダルアテンションで詳細な物体特性記述を生成

3.1 Vision Processing

項目	内容
エンコーダ	CLIP (ViT-L/14) を使用、画像とテキストの共有表現を学習
次元・意味アライメント	LLaVAの事前学習済み線形変換層を採用し、CLIPの出力をLLMの単語埋め込み空間に投影
境界トークン	`<img_start>`, `<img_end>` を画像由来埋め込みの周囲に挿入、視覚コンテンツとテキスト入力の区別を支援
画像分割	画像を複数領域に分割し、各領域から特徴行列を抽出、1次元表現にフラット化してLLMに入力

3.2 Tactile Processing

項目	内容
フレームワーク	OCTOPIフレームワークを採用
エンコーダ	CLIPベースの触覚エンコーダで触覚データを処理しLLMと融合
処理	触覚画像シーケンスから空間的・時間的情報をエンコードした特徴を抽出
位置エンコーディング	シーケンシャル特徴に位置エンコーディングを追加し、触覚インタラクションの順序とタイミングを保持
訓練	注釈付き触覚動画と物理特性ラベルを持つ物理学ベースデータセットで訓練

3.3 Multimodal Fusion through Feature Concatenation

投影済み物体画像特徴ベクトル（ $F_{o}$ ）、触覚画像特徴ベクトル（ $F_{t}$ ）、言語特徴ベクトル（ $F_{l}$ ）をチャネル方向に連結
$F_{co n c a t} = [F_{o}; F_{t}; F_{l}]$
各モダリティの識別特徴を保持しつつクロスモーダル相互作用を可能に
下流モジュール（マルチモーダル推論、分類、物体認識）への入力として機能

3.4 Refined Prompting Strategy for Physical Property Scoring

10段階Likertスケールによる3つの物理特性:

特性	スコア例	参照物体例
硬さ (Hardness)	極めて柔らかい〜極めて硬い	綿・スポンジ → 金属・ダイヤモンド
弾性 (Elasticity)	最小弾性〜最大弾性	粘土・乾いたスポンジ → トランポリン面・ラテックスシート
粗さ (Roughness)	極めて滑らか〜極めて粗い	ガラス・磨かれた大理石 → 砂利・軽石

プロンプト設計:

構造化されたプロンプトでマルチモーダル（視覚・触覚）データを用いた包括的物理特性分析を実現
2段階の分析：(1) 視覚ベース物体識別（色・形状・テクスチャ）、(2) 材料-触覚特性評価の組み合わせ
出力：正当化された物体識別と材料根拠付きの特性スコア

4. Experiments

4.1 Hardware

機器	詳細
触覚センサ	GelSight Mini（高解像度接触データ取得用）
カメラ	RealSense D410（視覚知覚用）
対象物体	35種類の家庭用品（プラスチック、ゴム、金属、木、セラミック、ガラス、フォーム、紙、繊維の9カテゴリ）
硬さ測定	PosiTector SHD（Shoreスケール）
弾性率測定	C610H Auto Tensile Tester
表面粗さ測定	RUGOSURF 20粗さ計（Ra値）

4.2 Data Collection

項目	詳細
触覚データ	GelSight Miniで20fpsで6秒間の動画を記録（接近から引き込みまでの完全接触サイクル）、250ms間隔でサンプリング
硬さ測定	各物体の所定位置で3回テスト、5秒間の標準化された保持時間
弾性率測定	C610H引張試験機で線形変形領域の応力-ひずみ応答を分析
表面粗さ測定	RUGOSURF 20プロファイロメータで複数回スキャン

4.3 Experimental Results

Spearman相関係数による評価（ゼロショット）:

特性	本手法 (Octopi-ViTaL)	Vision Only	Octopi (fine-grained)	Octopi (original)
硬さ	ρ=0.501, p=0.005 ✓	ρ=0.307, p=0.099	ρ=0.307, p=0.099	ρ=0.015, p=0.935
弾性	ρ=0.530, p=0.003 ✓	ρ=0.452, p=0.012	ρ=0.053, p=0.781	ρ=-0.060, p=0.753
粗さ	ρ=0.643, p=0.0001 ✓	ρ=0.413, p=0.023	ρ=-0.010, p=0.959	ρ=0.118, p=0.534

主な知見:

本手法は3つの物理属性すべてで統計的に有意かつ最も高い相関を達成
粗さで最も顕著な差（ρ=0.643 vs 次点0.413）
Octopi単体のゼロショット性能低下の原因：GelSight Miniの解像度・キャリブレーションの違い、照明・カメラアングルの違いなどのドメインシフト
視覚と触覚の融合により、単一モダリティや触覚のみの手法を一貫して上回る

5. Conclusion

視覚補償と最適化されたプロンプトエンジニアリングを通じて触覚知覚を強化する新しいアプローチを提案
VLMをクロスモーダルロボット知覚に活用
視覚事前知識の効果的統合と言語モデルインタラクションの構造化により、触覚のみの限界を克服
特に粗さ推定において物理特性推論を大幅に改善
今後の課題: 異なる材料特性を持つ物体の適応的マニピュレーションを含むロボット把持タスクへのマルチモーダル触覚-視覚アプローチの適用