視触覚統合型ロボット操作における学習ベンチマークと微分可能最適化の技術的進展

ロボットマニピュレーションの分野は、視覚のみに依存する制御から、接触時の物理的相互作用を捉える触覚を統合したマルチモーダルなアプローチへと急速に転換している。視覚情報は物体の大まかな位置特定や周囲の状況把握には極めて有効であるが、物体との接触が発生する近接領域においては、遮蔽（オクルージョン）や照明条件の変動、サブミリメートル単位の幾何学的精度が要求されるタスクにおいて限界を露呈することが多い
^1^。こうした背景から、パデュー大学のMechanisms And Robotic Systems
(MARS) 研究室におけるZhengtong Xu氏およびYu
She教授を中心とした研究グループは、視触覚ポリシー学習のための包括的なベンチマークであるManiFeelを構築し、それに関連する高度なセンシングハードウェアおよび制御アルゴリズムの開発を推進してきた
^4

視触覚統合型センサの設計思想と物理的メカニズム

高度なロボット操作を実現するためには、プレグラブ（把持前）段階のナビゲーションから、接触後の高精度な位置合わせまでをシームレスに支援するセンシングモダリティが不可欠である
^1

VisTacセンサ：可変透過性膜による統合

VisTacセンサは、単一のロボットフィンガー内で視覚と触覚の両方を高解像度で提供することを目指した画期的な統合型センサである
^1^。このセンサの核心的技術は、内部の照明条件に応じて光学的な特性を変化させる「可変透過性膜」の採用にある
^1^。この膜は、内部のLEDアレイがオフの状態では透明な状態を維持し、外部環境を観察する「視覚モード」として機能する一方で、LEDが点灯すると不透明化し、膜の背後に配置されたカメラが膜の変形を捉える「触覚モード」へと切り替わる
^1

物理的構成において、VisTacは二つの異なる役割を担うカメラを内蔵している
^1^。Camera
1は、エラストマー・ゲルパッド（EGP）の微細な変形を撮影するために最適化された焦点距離を持ち、主に触覚データの取得に従事する。対照的に、Camera
2はより広角の視野を持ち、物体への接近や環境のモニタリングといった視覚的タスクを担当する
^1^。このように、特定の要件に合わせた光学系を単一の筐体に統合することで、視覚情報の遮蔽問題を克服しつつ、コンパクトな設計を実現している
^1

特殊なマニピュレーションに対応するセンサ技術

一般的な操作以外にも、薄型で柔軟な物体の扱いに特化したセンサの開発も進められている。例えば、RoTipセンサは、先端部が回転可能な機構を持ち、周囲全体の接触情報を取得することができる
^7^。この特性は、ページをめくる、あるいは薄い材料の層をカウントするといった、従来型のグリッパーでは困難であった「人間の指先のような繊細な操作」を可能にする
^7^。RoTipBotと呼ばれる二本のRoTipセンサを備えたロボットシステムは、接触情報をリアルタイムでフィードバックすることで、把持力を動的に調整し、楽譜のページめくりや衣類のハンドリングにおいて高い成功率を収めている
^7

ManiFeelベンチマーク：視触覚ポリシーの標準化と評価

視触覚学習の分野において最大の障壁となっていたのは、再現可能で大規模な評価を可能にする標準化されたベンチマークの欠如であった
^2^。ManiFeelは、シミュレーションと現実世界の両方で動作する、拡張性の高いベンチマークプラットフォームとして提案された
^3

モジュール型パイプラインの設計

ManiFeelの設計における重要な特徴は、その高度なモジュール性にある
^2^。このプラットフォームは、センシングモダリティ、触覚表現、および学習ポリシーの三つの主要コンポーネントを独立して組み合わせることが可能である
^2

コンポーネント 評価対象・選択肢

センシングモダリティ 視覚のみ、触覚のみ、視触覚統合 ^8^

触覚データの形式 RGB画像 (TacRGB)、力場表現 (TacFF)
^2^

触覚表現学習手法 ResNet18 (スクラッチ)、T3
(事前学習済み)、UniT
(VQGAN)、AnyTouch ^8^

ポリシーアーキテクチャ Diffusion Policy、Equivariant
Diffusion Policy、Flow Matching ^8^

タスクの分類と環境設計

ManiFeelに含まれるタスクは、接触が豊富（contact-rich）であり、かつ視覚的に困難なシナリオを網羅するように設計されている
^2

挿入および組立タスク

このカテゴリは、産業用ロボットの組立工程で頻繁に遭遇する、サブミリメートル単位の精度が要求されるタスクで構成されている
^2^。ペグ挿入、USBプラグの接続、電源プラグの挿入などが含まれ、物体のポーズや幾何学的形状の変動に対して、いかに正確に位置を合わせられるかが評価される
^2^。特にギア組立タスクは、中心軸への挿入だけでなく、周囲のギアとの歯の噛み合わせを考慮する必要があり、視覚だけでは検出不可能な微細な接触エラーを触覚で補正する能力が問われる
^2

ネジ締めおよび回転操作

ネジ締めグループは、回転運動とトルク感度が高い相互作用を伴うタスクをカバーしている
^2^。ナットとボルトの組み立てでは、滑りを防ぐための適切な把持力維持と、ネジ山に沿ったスムーズな回転が求められる
^2^。また、電球の取り付けタスクでは、ソケット内部が視覚的に遮蔽されるため、締め付けの完了を触覚を通じて検知し、過剰な回転による破損や締め付け不足を防ぐ必要がある
^2

探索および視覚制限下の操作

視覚が完全に遮断された、あるいは極端に制限された環境下での操作を評価するタスクである
^8^。閉鎖されたコンテナ内での物体探索や、薄暗い照明下でのボール（ゴルフボールとピンポン球）の分類などが含まれる。これらのタスクでは、物体の外見が似ていても表面のテクスチャが異なる場合、触覚情報の優位性が顕著に現れる
^8

触覚表現学習の高度化とデータ効率性

触覚センサから得られる高次元の画像データを、いかに効率的かつ汎用的な表現へと圧縮するかは、ポリシー学習の成否を分ける重要な要素である
^9^。ManiFeelでは、いくつかの最先端の触覚表現手法を比較評価している
^8

UniT：VQGANによる表現学習

UniT (Unified Tactile representation) は、VQGAN (Vector Quantized
Generative Adversarial Network)
を用いて、触覚画像をコンパクトな潜在空間へと圧縮する手法である
^5^。UniTの最大の特徴は、単一の単純な物体との接触データのみでトレーニングを行っても、未学習の複雑な物体や異なるタスクに対して高いゼロショット転送能力を発揮する点にある
^5^。実験では、UniTを用いた表現が、3Dポーズ推定や多様なマニピュレーションタスクにおいて、既存の視覚・触覚表現学習手法を凌駕することが示されている
^9

表現手法別の品質評価

触覚データの形式として、生のRGB画像 (TacRGB)
と、接触圧をベクトル形式で表した力場 (TacFF) の二種類が検討されている
^2^。分布の質を測るFID (Fréchet Inception Distance) および KID (Kernel
Inception Distance) の評価結果は以下の通りである。

センシング形式 対象物体 FID ↓ KID (×10−2) ↓

TacRGB ボール 5.67 5.79
(触覚画像)

TacRGB 電球 5.80 6.46
(触覚画像)

TacRGB ギア 6.57 7.44
(触覚画像)

TacFF (触覚力場) ボール 2.96 2.77

TacFF (触覚力場) 電球 3.54 3.23

TacFF (触覚力場) ギア 2.91 2.54

上記のデータ ^2^
が示すように、すべての物体においてTacFFの方がFIDおよびKIDの値が低く、力場表現の方がデータの分布がより安定しており、ポリシー学習にとってより扱いやすい特徴量を提供していることが示唆される。

視触覚ポリシーの制御アルゴリズムと生成モデル

ロボットの挙動を決定するポリシーアーキテクチャとして、従来の回帰モデルに代わり、拡散モデル（Diffusion
Models）などの生成的なアプローチが注目されている ^2

拡散ポリシーとフローマッチング

ManiFeelの評価において、Diffusion Policyは高い成功率を記録している
^2^。これは、人間のデモンストレーションに含まれるマルチモーダルな（複数の正解が存在する）行動分布を、ノイズ除去プロセスを通じて効果的にモデル化できるためである
^5^。また、フローマッチング（Flow
Matching）を用いたポリシーも比較対象となっており、モデルのアーキテクチャと触覚入力の適合性が系統的に分析されている
^8

VILP：潜在ビデオ計画による模倣学習

ロボットの汎用性を高めるためのさらなる進展として、ビデオ生成モデルをポリシーに統合したVILP
(Imitation Learning with Latent Video Planning) が提案されている
^11^。VILPは、潜在的なビデオ拡散モデルを用いて、将来のロボットの視覚的な状態を予測し、その予測に基づいて一貫性のある行動を計画する
^5

VILPの技術的特徴は以下の通りである。

時間的一貫性:
生成されたビデオは、複数の視点から撮影されたものであっても高い時間的整合性を維持する
^11
推論効率: 96x160ピクセルの解像度、6フレームのビデオを5
Hzのレートで生成可能であり、リアルタイムに近い制御を実現している
^11
データ効率:
タスク固有の大規模な行動データを必要とせず、少ないデモンストレーションからでも堅牢なパフォーマンスを発揮する
^11

微分可能最適化による安全性と解釈性の担保

ニューラルネットワークを用いたポリシー学習は高い表現力を持つ一方で、出力の不確実性や安全性の欠如が課題となる
^13^。これに対し、Xu氏らの研究グループは、最適化層をニューラルネットワークに統合する「グレーボックス」的なアプローチを提唱している
^5

LeTac-MPC：触覚反応型把持制御

LeTac-MPCは、微分可能なモデル予測制御 (MPC)
層を組み込んだ把持制御フレームワークである
^15^。GelSightのような高解像度触覚センサから得られる埋め込み表現を、微分可能なMPC層に直接入力することで、把持中の物体の物理的性質（サイズ、形状、質感）や外乱に即座に反応し、25
Hzの周波数で把持力を調整することができる
^5^。このシステムは、標準的なブロックを用いたデータのみでトレーニングされているにもかかわらず、未知の日常的な物体に対しても高い汎用性を示す
^15

LeTOおよびDiffOG：制約付き軌道最適化

ロボットの挙動が特定の環境制約や安全制約を遵守することを保証するため、LeTO
(Learning Constrained Visuomotor Policy with Differentiable Trajectory
Optimization) および DiffOG (Differentiable Policy Trajectory
Optimization with Generalizability) が開発された ^13

LeTOは、軌道最適化問題を微分可能な形でモデルに組み込み、デモンストレーションへの適合性と制約の満足、さらには軌道の平滑化を同時に学習する
^11^。一方、DiffOGは、トランスフォーマーベースのアーキテクチャを用いて、生成された行動軌道をリアルタイムで修正し、モデルベースの制御に匹敵する軌道品質（滑らかさ、安全性）を達成している
^5^。実験結果によれば、DiffOGは、従来の制約処理手法（Greedy Constraint
Clippingなど）と比較して、成功率を維持しつつ軌道の不確実性を大幅に低減させることに成功している
^11

ベンチマーク結果の分析と技術的考察

ManiFeelを用いた広範な実験により、視触覚統合が特定の条件下でいかにパフォーマンスを向上させるかが明らかになっている
^2

モダリティ別成功率の比較

各センシング構成における主要タスクの成功率（シミュレーション）は以下の通りである。

センシング構成 ペグ挿入 ギア組立 電球取り付け 物体探索ボール分類
(遮蔽) (暗所)

視覚のみ (Vision 0.14 0.63 0.76 0.52 0.57
only)

視覚 + TacRGB 0.21 0.57 0.72 0.69 0.72

視覚 + TacFF 0.40 0.66 0.81 0.52 0.60

上記の表から読み取れる重要な知見は、タスクの性質によって最適な触覚表現が異なる点である
^2^。例えば、ペグ挿入のような精密な位置合わせが必要なタスクでは、力場情報
(TacFF)
を統合したモデルが視覚のみのモデルに比べ約3倍近い成功率（0.40対0.14）を達成している
^2^。一方で、暗所での物体分類のように物体の表面状態が重要なタスクでは、生の触覚画像
(TacRGB) の方が高い性能（0.72）を示している ^2

「ナイーブな統合」の限界と課題

実験データはまた、マルチモーダル学習における重要な課題を浮き彫りにしている
^8^。コンテナ内での物体探索やブラインド挿入タスクにおいて、視覚情報が極端にノイズに満ちている場合、視覚と触覚を単純に統合したモデル（Visuotactile）が、触覚のみのモデル（Tactile-only）よりも低いパフォーマンスを示す事例が報告されている
^8^。これは、関連性の低いモダリティが学習プロセスにおいて「干渉」や「ノイズ」として作用する可能性を示唆しており、より適応的なセンサフュージョン戦略が必要であることを示している
^8

将来展望とロボットマニピュレーションの進化

ManiFeelおよび関連技術の進展は、今後のロボット学習における新たなパラダイムを指し示している
^5

汎用的接触推定フレームワーク：UNIC

UNICは、事前知識やカメラキャリブレーションを一切必要とせずに、ロボットの体表面への接触を推定する統合フレームワークである
^5^。視覚、プロプリオセプション（深部感覚）、触覚をデータ駆動型で統合し、環境との多様な接触形成を「アフォーダンスマップ」として捉える
^16^。これは、指先だけでなく腕全体を用いた器用な操作（dexterous
manipulation）を実現するための基盤技術となる ^5

VLAモデルと自律型ロボットエージェント

今後の研究は、視覚・言語・行動を統合したVLA (Vision-Language-Action)
モデルへの移行を加速させると予想される
^5^。AgenticLabのようなプラットフォームは、ロボットが自然言語の指示を理解し、思考し、物理的な行動を正確に実行する「見て、考えて、動く」システムの実現を目指している
^18^。ManiFeelのような高精度なシミュレーションベンチマークは、こうしたFoundation
Modelのトレーニングに必要な大規模かつ高品質な合成データを提供し、物理的な実験コストを大幅に削減する役割を果たす
^2

結論と提言

Zhengtong
Xu氏およびMARS研究室による一連の成果は、視触覚統合マニピュレーションの分野において、ハードウェア、データ表現、ポリシー学習、そして制御最適化のすべての階層にわたる革新をもたらした
^2^。ManiFeelベンチマークのオープンソース化は、この分野の研究者が共通の基準で手法を比較し、再現性を確保することを可能にした
^2

今後のロボット開発においては、以下の方向性が重要視されるべきである。

適応的マルチモーダル融合:
環境条件に応じて視覚と触覚の重みを動的に変更するメカニズムの導入。
微分可能アーキテクチャの拡大:
安全性が不可欠なリアルタイム環境への配慮として、最適化層を深く統合した学習モデルの採用。
シミュレーションの忠実度向上:
触覚特有の物理現象（摩擦、変形、微小振動）をより正確に再現し、Sim-to-Realのギャップをさらに埋める取り組み。

これらの技術が成熟することで、ロボットは工場内での精密組立から、家庭内での繊細な介助業務まで、より広範かつ高度なタスクを自律的に遂行できるようになることが期待される
^3

引用文献

VisTac: Towards a Unified Multi-Modal Sensing Finger for Robotic
Manipulation - Purdue Engineering, 2月 26, 2026にアクセス、
[https://engineering.purdue.edu/~qqiu/pub/VisTac.pdf]{.underline}
ManiFeel: Benchmarking and Understanding Visuotactile Manipulation
Policy Learning - arXiv, 2月 26, 2026にアクセス、
[https://arxiv.org/html/2505.18472v2]{.underline}
[2505.18472] ManiFeel: Benchmarking and Understanding Visuotactile
Manipulation Policy Learning - arXiv, 2月 26, 2026にアクセス、
[https://arxiv.org/abs/2505.18472]{.underline}
ICON - Robotic Manipulation and Tactile Sensing, 2月 26,
2026にアクセス、
[https://www.opp.purdue.edu/ICON/Research/Demos/robotic-manipulation-and-tactile-sensing]{.underline}
Zhengtong Xu - GitHub Pages, 2月 26, 2026にアクセス、
[https://zhengtongxu.github.io/website/]{.underline}
News - Purdue’s MARS Lab, 2月 26, 2026にアクセス、
[https://www.purduemars.com/news]{.underline}
Autonomous Learning of Page Flipping Movements via Tactile
Feedback - ResearchGate, 2月 26, 2026にアクセス、
[https://www.researchgate.net/publication/361035609_Autonomous_Learning_of_Page_Flipping_Movements_via_Tactile_Feedback]{.underline}
ManiFeel: Benchmarking and Understanding Visuotactile Manipulation
Policy Learning - arXiv, 2月 26, 2026にアクセス、
[https://arxiv.org/html/2505.18472v1]{.underline}
UniT: Data Efficient Tactile Representation with Generalization to
Unseen Objects - Purdue e-Pubs, 2月 26, 2026にアクセス、
[https://docs.lib.purdue.edu/iepubs/20/]{.underline}
ManiFeel: Benchmarking and Understanding Visuotactile Manipulation
Policy Learning - YouTube, 2月 26, 2026にアクセス、
[https://www.youtube.com/watch?v=fhAhnV6hArI]{.underline}
Zhengtong Xu’s research works | Purdue University West Lafayette
and other places, 2月 26, 2026にアクセス、
[https://www.researchgate.net/scientific-contributions/Zhengtong-Xu-2260487397]{.underline}
VILP: Imitation Learning with Latent Video Planning - Purdue e-Pubs,
2月 26, 2026にアクセス、
[https://docs.lib.purdue.edu/iepubs/18/]{.underline}
LeTO: Learning Constrained Visuomotor Policy With Differentiable
Trajectory Optimization - Purdue e-Pubs, 2月 26, 2026にアクセス、
[https://docs.lib.purdue.edu/iepubs/14/]{.underline}
DiffOG: Differentiable Policy Trajectory Optimization With
Generalizability - Purdue e-Pubs, 2月 26, 2026にアクセス、
[https://docs.lib.purdue.edu/iepubs/26/]{.underline}
LeTac-MPC: Learning Model Predictive Control for Tactile-Reactive
Grasping - Purdue e-Pubs, 2月 26, 2026にアクセス、
[https://docs.lib.purdue.edu/iepubs/15/]{.underline}
UNIC: Learning Unified Multimodal Extrinsic Contact Estimation -
arXiv.org, 2月 26, 2026にアクセス、
[https://arxiv.org/html/2601.04356v2]{.underline}
Genie Sim 3.0 : A High-Fidelity Comprehensive Simulation Platform
for Humanoid Robot - arXiv, 2月 26, 2026にアクセス、
[https://arxiv.org/html/2601.02078v1]{.underline}
‪Zhengtong Xu‬ - ‪Google Scholar‬, 2月 26, 2026にアクセス、
[https://scholar.google.com.cu/citations?user=nfwA3RUAAAAJ&hl=fr]{.underline}

Quartz 5

Explorer

ManiFeel

視触覚統合型ロボット操作における学習ベンチマークと微分可能最適化の技術的進展

視触覚統合型センサの設計思想と物理的メカニズム

VisTacセンサ：可変透過性膜による統合

特殊なマニピュレーションに対応するセンサ技術

ManiFeelベンチマーク：視触覚ポリシーの標準化と評価

モジュール型パイプラインの設計

ポリシーアーキテクチャ Diffusion Policy、Equivariant
Diffusion Policy、Flow Matching ^8^

タスクの分類と環境設計

挿入および組立タスク

ネジ締めおよび回転操作

探索および視覚制限下の操作

触覚表現学習の高度化とデータ効率性

UniT：VQGANによる表現学習

表現手法別の品質評価

TacFF (触覚力場) ギア 2.91 2.54

視触覚ポリシーの制御アルゴリズムと生成モデル

拡散ポリシーとフローマッチング

VILP：潜在ビデオ計画による模倣学習

微分可能最適化による安全性と解釈性の担保

LeTac-MPC：触覚反応型把持制御

LeTOおよびDiffOG：制約付き軌道最適化

ベンチマーク結果の分析と技術的考察

モダリティ別成功率の比較

視覚 + TacFF 0.40 0.66 0.81 0.52 0.60

「ナイーブな統合」の限界と課題

将来展望とロボットマニピュレーションの進化

汎用的接触推定フレームワーク：UNIC

VLAモデルと自律型ロボットエージェント

結論と提言

引用文献

Graph View

Table of Contents

Backlinks

Quartz 5

Explorer

ManiFeel

視触覚統合型ロボット操作における学習ベンチマークと微分可能最適化の技術的進展

視触覚統合型センサの設計思想と物理的メカニズム

VisTacセンサ：可変透過性膜による統合

特殊なマニピュレーションに対応するセンサ技術

ManiFeelベンチマーク：視触覚ポリシーの標準化と評価

モジュール型パイプラインの設計

ポリシーアーキテクチャ Diffusion Policy、Equivariant Diffusion Policy、Flow Matching ^8^

タスクの分類と環境設計

挿入および組立タスク

ネジ締めおよび回転操作

探索および視覚制限下の操作

触覚表現学習の高度化とデータ効率性

UniT：VQGANによる表現学習

表現手法別の品質評価

TacFF (触覚力場) ギア 2.91 2.54

視触覚ポリシーの制御アルゴリズムと生成モデル

拡散ポリシーとフローマッチング

VILP：潜在ビデオ計画による模倣学習

微分可能最適化による安全性と解釈性の担保

LeTac-MPC：触覚反応型把持制御

LeTOおよびDiffOG：制約付き軌道最適化

ベンチマーク結果の分析と技術的考察

モダリティ別成功率の比較

視覚 + TacFF 0.40 0.66 0.81 0.52 0.60

「ナイーブな統合」の限界と課題

将来展望とロボットマニピュレーションの進化

汎用的接触推定フレームワーク：UNIC

VLAモデルと自律型ロボットエージェント

結論と提言

引用文献

Graph View

Table of Contents

Backlinks

ポリシーアーキテクチャ Diffusion Policy、Equivariant
Diffusion Policy、Flow Matching ^8^