UAOR:視覚・言語・アクションモデルにおける不確定性考慮型観測再注入メカニズムの深度研究報告
汎用的なロボット操作を実現するためのアプローチとして、視覚・言語・アクション(Vision-Language-Action,
VLA)モデルの登場は、ロボティクス分野における極めて重要な転換点となっている^1^。これらのモデルは、インターネット規模のデータで事前学習された視覚・言語モデル(VLM)をバックボーンとして活用し、そこにロボット特有の操作データ(軌跡データや指示文)を微調整することで、高レベルな言語指示を低レベルな制御コマンドへと直接マッピングする能力を有している^2^。しかし、モデルの階層が深くなるにつれて、推論の過程で初期の視覚的観測情報が徐々に減衰し、言語的なバイアスや過去のアクションシーケンスに過度に依存する「観測情報の忘却(Observation
Forgetting)」という現象が、性能向上を阻む深刻なボトルネックとして浮上している^1
この課題に対し、「UAOR: Uncertainty-aware Observation Reinjection for
Vision-Language-Action
Models」(arXiv:2602.18020)は、モデルの学習を一切必要としない、プラグアンドプレイ型の革新的なモジュールを提案している^1^。UAORは、モデル内部の不確定性を「アクション・エントロピー(Action
Entropy)」という独自の指標で層ごとに測定し、モデルが困惑していると判断される特定の層において、初期の視覚情報をフィードフォワードネットワーク(FFN)へと再注入することで、視覚的な接地(Grounding)を再強化する仕組みを持つ^1
ロボット制御におけるVLAモデルの進化と構造的課題
現代のロボティクスにおいて、未知の環境や多様なタスクに対応できる汎用的なエージェントの構築は、最優先の目標の一つである^3^。従来のロボット制御は、特定のタスクに対して設計された閉鎖的なシステムであったが、大規模言語モデル(LLM)の成功により、言語的な推論能力を物理的なアクションに統合するVLAモデルが注目されるようになった^1^。OpenVLAやCogACTといったモデルは、視覚エンコーダ(例:ViT)によって抽出された視覚トークンと、命令を表す言語トークン、そしてロボットの固有受容感覚(プロプリオセプション)トークンをトランスフォーマーブロックに入力し、自己回帰的にアクションを出力する^1
しかし、これらのディープなトランスフォーマーモデルには、推論が深層に進むにつれて入力された視覚信号が「希釈」されるという本質的な問題が存在する^1^。トランスフォーマーの各層で行われる自己注意機構(Self-Attention)とFFNによる変換は、情報の抽象化を促進する一方で、初期の観測情報に対する注意の重みを減少させることが判明している^2^。この「忘却」が進むと、モデルは視覚的な事実よりも、学習データに含まれる言語的なパターン(例:「引き出しを開ける」という命令に対して、中身を確認せずに常に一定の方向に腕を動かすなど)を優先してしまい、精緻な操作が必要な場面で失敗を引き起こす原因となる^2
観測情報忘却のメカニズム的解析
研究によれば、VLAモデルの中間層から深層にかけて、視覚トークンに対するアテンションスコアが急激に低下する現象が確認されている^2^。これは、情報のボトルネック理論に基づけば、アクションを生成するために必要な情報が圧縮される過程で、タスクに不可欠な微細な視覚的差異がノイズとして切り捨てられている可能性を示唆している^1^。特に、複雑な物体の配置や障害物が存在する環境では、この減衰が致命的な操作ミスに直結する^2
UAORの研究チームは、このアテンションの減衰が「モデルの不確定性の増大」と密接に相関していることを突き止めた^1^。モデルが次にどのアクションを選択すべきか確信を持てないとき、出力されるアクションの確率分布は分散し、エントロピーが高まる^1^。この相関関係は、単なる偶然ではなく、視覚的な接地が失われたことによる論理的な帰結であると分析されている^2
UAOR(不確定性考慮型観測再注入)の技術的フレームワーク
UAORの最大の特徴は、追加の学習を必要とせず、推論時に動的に介入を行う「トレーニングフリー」なアプローチである点にある^1
アクション・エントロピーによる層別不確定性の測定
UAORは、トランスフォーマーの各層
{width=“8.414698162729659e-2in”
height=“0.24192257217847768in”}
において、モデルの「困惑度」をリアルタイムで監視する^1^。ここで用いられる指標が「アクション・エントロピー(Action
Entropy)」である^1^。従来の不確定性測定では、特徴量の分散(Feature
Entropy)を用いることが一般的であったが、特徴量の分散は層が深くなるにつれて自然に増大する傾向があり、必ずしもタスクの混乱を意味しない^2
これに対し、アクション・エントロピーは、中間層の隠れ状態
{width=“0.18513998250218722in”
height=“0.24685258092738407in”}
をモデルの最終的なアクション出力ヘッド(アンエンベディング層)に直接投影し、そこから得られるアクション分布
{width=“0.6622714348206474in”
height=“0.24835192475940507in”}
のシャノン・エントロピーを計算する手法である^1
{width=“6.097249562554681in”
height=“0.9588834208223972in”}
ここで
{width=“0.16235345581802274in”
height=“0.2435301837270341in”}
はアクション語彙のサイズを示す。この計算により、モデルがその特定の階層において、最終的なアウトプットをどの程度正確に予見できているかを定量化することが可能となる^1^。エントロピーが閾値を超えた場合、それはモデルが視覚的な接地を失い、迷いが生じているシグナルとして機能し、再注入プロセスがトリガーされる^1
アテンティブ・リトリーバルによる情報の精緻化
再注入がトリガーされる際、単に初期の視覚トークンをそのまま加算するのではなく、現在のモデルの文脈に適した情報を抽出するための「アテンティブ・リトリーバル(Attentive
Retrieval)」が行われる^1
現在の隠れ状態
{width=“0.18513998250218722in”
height=“0.24685258092738407in”}
をクエリ(Query)とし、初期の視覚観測トークン
{width=“0.15942366579177603in”
height=“0.25507874015748033in”}
をキー(Key)およびバリュー(Value)として、クロスアテンション計算を実行する^1
{width=“6.097249562554681in”
height=“0.8338123359580053in”}
このメカニズムにより、モデルが「今まさに何を注視すべきか」という情報(例:ロボットアームの先端や、掴もうとしている物体の境界線など)が動的に選択され、再注入される情報の関連性が最大化される^1^。これにより、不要な背景情報などのノイズを排除しつつ、タスク遂行に必要な視覚的ヒントのみを効果的に抽出することが可能となっている^1
フィードフォワードネットワーク(FFN)への再注入
UAORが再注入の対象として選択したのは、トランスフォーマーブロック内の自己注意層ではなく、FFN層である^1^。近年の言語モデルにおけるメカニズム的解釈研究では、FFNは「キー・バリュー・メモリ」として機能し、特定の入力パターンに対して意味的な情報を取得・変換する役割を担っていることが示唆されている^1
UAORはこの洞察をロボティクスに応用し、FFNの出力を以下の式でブレンドすることで、視覚情報をモデルの内部表現に統合する^1
{width=“6.097249562554681in”
height=“0.5836679790026247in”}
ここで
{width=“0.12980096237970254in”
height=“0.2596019247594051in”}
はブレンド係数であり、既存の情報の流れを破壊しない程度の微細な調整を行う^2^。この「ソフト」な統合により、モデルが本来持っている推論能力を活かしつつ、視覚的な事実による「軌道修正」を施すことができる^2
実験結果と性能評価:シミュレーションから現実世界へ
UAORの有効性は、LIBERO、SIMPLERといった主要なシミュレーションベンチマーク、および実環境でのロボット操作実験を通じて実証されている^1
SIMPLERベンチマークにおける比較分析
SIMPLERベンチマークは、Google
RT-1などのモデルの性能を評価するために広く用いられる環境である^1^。UAORを既存のCogACTモデルに適用した結果、すべてのタスクにおいて成功率の向上が確認された^1
手法 コーラ缶の採取 接近操作 引き出し操作 ピック&プレース 平均成功率
RT-1 (Brohan et al.) 85.7 44.2 73.0 6.5 52.4
RT-1-X 56.7 31.7 59.7 21.3 42.4
RT-2-X 78.7 77.9 25.0 3.7 46.3
Octo-base 17.0 4.2 22.7 0.0 11.0
OpenVLA 18.0 56.3 63.0 0.0 34.3
CogACT (Base) 92.3 83.7 72.7 43.5 73.1
{width=“0.13728893263342082in”
{width=“0.13728893263342082in”
{width=“0.13728893263342082in”
{width=“0.13728893263342082in”
{width=“0.13728893263342082in”
height=“0.21121281714785653in”} 0.3 height=“0.21121281714785653in”} 0.6 height=“0.21121281714785653in”} 0.2 height=“0.21121281714785653in”} 1.0 height=“0.21121281714785653in”} 0.7
CogACT w/ UAOR (Ours) 95.0 87.1 73.6 47.2 75.7
{width=“0.13728893263342082in”
{width=“0.13728893263342082in”
{width=“0.13728893263342082in”
{width=“0.13728893263342082in”
{width=“0.13728893263342082in”
height=“0.21121281714785653in”} 0.3 height=“0.21121281714785653in”} 0.3 height=“0.21121281714785653in”} 0.4 height=“0.21121281714785653in”} 0.4 height=“0.21121281714785653in”} 0.5
向上幅 +2.7 +3.4 +0.9 +3.7 +2.6
(
{width=“0.1470538057742782in”
height=“0.21007764654418198in”})
特に「ピック&プレース」のような、精細な位置把握と長期的な計画が必要なタスクにおいて、+3.7%という顕著な向上が見られたことは、観測情報の再注入がモデルの信頼性を高める上で極めて有効であることを示している^1^。平均して+2.6%の向上は、追加学習が不要なモジュールとしては極めて高いコストパフォーマンスと言える^1
LIBEROベンチマークにおける評価と汎用性
LIBEROベンチマークでは、空間的理解、物体操作、ゴール達成、長期スパンのタスクなど、多様なカテゴリでUAORの評価が行われた^2^。ここでは、OpenVLA-OFTをベースモデルとして使用している^2
手法 / バリアント 空間的理解 物体操作 ゴール達成 長期スパン 平均成功率
OpenVLA-OFT (Base) 98.2 98.2 97.6 94.2 97.1
UAOR (全層注入) 97.8 97.6 96.2 95.2 96.7
UAOR (ランダム注入) 97.8 97.6 96.4 93.6 96.4
UAOR 99.0 98.4 98.2 96.2 98.0
(エントロピー考慮)
この結果から、不確定性を考慮せずに全層に注入したり、ランダムなタイミングで注入したりすると、かえって性能が低下することが示された^2^。これは、モデルがすでに確信を持っている層(特に初期の知覚層や最終的な決定層)に対して外部から情報を加えることが、既存の学習済み表現を撹乱するノイズとして機能してしまうためである^2^。対照的に、アクション・エントロピーに基づき「必要な時だけ」介入するUAORのアプローチは、モデルの自律的な推論プロセスを補完し、98.0%という最高水準の平均成功率を達成した^2
実環境におけるリアルタイム性能とオーバーヘッド
UAORの設計は極めて効率的であり、推論時の計算オーバーヘッドは無視できるほど小さい^1^。アクション・エントロピーの計算は単一の線形投影とエントロピー計算のみであり、リトリーバルもアクション生成用のトークンに対してのみ行われるため、トランスフォーマー全体の計算量に対して極めて低い割合を占める^1
実際のロボットアームを用いた実験でも、UAORを搭載したシステムは20Hz以上の制御ループを維持しつつ、視覚的な遮蔽や物体の予期せぬ移動に対して、ベースモデルよりも頑健な回復能力を示した^1^。これは、リアルタイム性が要求される産業用ロボットや家庭用エージェントへの適用において、極めて重要な利点となる^5
理論的考察:なぜアクション・エントロピーが機能するのか
UAORが他の不確定性指標を凌駕する理由は、その「意味的な解像度」にある^2^。中間層の解析を通じて、アクション・エントロピーが単なる数値的な変動ではなく、モデル内部の認知状態を正確に反映していることが明らかになっている^2
層別線形プロービングによる表現の解析
研究チームは、各層の隠れ状態からどのアクションが予測されるかを線形プロービング(Linear
Probing)で測定した^2
層インデックス 4 8 12 16 20 24 28 32
線形プロービング成功率 45.6 62.3 78.5 86.1 90.4 92.1 93.5 94.2
(%)
このデータは、モデルが層を追うごとに徐々にアクションに関する情報を形成していることを示している^2^。興味深いことに、アクション・エントロピーが高まるのは通常、第16層から第24層の中間領域である^2^。この領域は、知覚情報が具体的なアクション計画へと変換される重要なフェーズであり、ここで視覚情報が欠落すると、モデルは矛盾した複数のアクション候補の間で「迷い」が生じる^2^。UAORはこの決定的なタイミングを捕捉し、不足している視覚的接地を補給することで、最終層での確信度を高める役割を果たしている^2
特徴量エントロピーとの対比
特徴量エントロピーを用いたバリアントでは、成功率がベースラインを下回る結果となった(平均96.9%)^2^。特徴量エントロピーは隠れ状態ベクトルのエネルギー分布を測定するが、深層モデルにおいては特徴量が多様化し、分布が広がることは「情報の豊かさ」を意味する場合があり、必ずしも「決定の迷い」を意味しない^2^。その結果、モデルが確信を持っている最終段階で誤って注入がトリガーされ、生成されたアクションがノイズで汚染されるという事態を招いた^2^。この比較実験は、ロボット制御という目的志向のモデルにおいて、不確定性の測定は出力空間(アクション空間)に近い場所で行うべきであるという重要な示唆を与えている^2
他のVLA向上手法との比較:ROCKET、AsyncVLA、および最新トレンド
2026年初頭のロボティクスAIの研究動向において、VLAモデルの改良はUAOR以外にも多方面で進められている^5
ROCKET:3D基盤モデルとの整列
ROCKET(Residual-Oriented Multi-Layer
Alignment)は、強力な3D視覚基盤モデルを用いて2DのVLAモデルをガイドする手法である^3^。ROCKETはLIBEROベンチマークで98.5%という驚異的な成功率を記録しているが、これには3DモデルとVLAを整列させるための追加学習が必要であり、学習時の計算コストがかかる^3
手法 学習の必要性 LIBERO成功率 特徴
OpenVLA (Base) なし 97.1% 標準的なベースモデル
UAOR (Ours) なし 98.0% トレーニングフリー、低コスト
ROCKET-VLA あり 98.5% 3D教師モデルによる整列
TraceVLA あり - 視覚的な軌跡プロンプトの活用
UAORの利点は、ROCKETに迫る性能を「追加学習ゼロ」で達成している点にある^1^。特に、4%という極めて限定的な計算予算しか持たない環境下では、UAORのプラグアンドプレイ性は圧倒的な優位性を持つ^1
AsyncVLA:非同期制御による遅延対策
AsyncVLAは、モデルの性能向上そのものではなく、推論遅延が制御に与える影響を軽減することに焦点を当てている^6^。巨大な基盤モデルをリモートのワークステーションで動かし、エッジデバイス上の軽量なアダプターが高速にアクションを微調整する階層構造を採用している^6
UAORのメカニズムは、このような非同期フレームワークのリモート側モデルに組み込むことで、生成される高レベルガイダンスの品質をさらに高めることが可能である^1^。通信遅延が最大6秒に達するような過酷な環境(例:遠隔操作や宇宙ロボティクス)では、一度の推論の正確性が生死を分けるため、UAORによる視覚接地の再強化は極めて価値が高い^1
視覚的拡張(Visual Augmentation)の潮流
SpatialVLAやTraceVLAのように、入力データそのものに奥行き情報(3D
Position Encoding)や過去の軌跡(Visual
Traces)を埋め込むアプローチも増加している^1^。これらは知覚能力を根本から引き上げるが、特定のデータ形式に依存するため、汎用性が制限される場合がある^1^。UAORは、既存のRGB画像のみから追加情報を抽出するため、特定のハードウェア(例:RGB-Dカメラ)に依存しないという柔軟性を持っている^1
UAORが示唆するロボティクスAIの第二・第三段階の洞察
本研究の結果を深く掘り下げると、単なる性能向上以上の、ロボット基盤モデルの本質に関する洞察が得られる。
言語バイアスと物理的現実の相克
VLAモデルが中間層で「迷う」原因の多くは、言語命令から導き出される強い「事前知識(Priors)」と、目の前の「視覚的事実(Observations)」が衝突しているためである^2^。例えば、「コーヒーを淹れる」という指示に対して、モデルは過去に学習した典型的な動作を再現しようとするが、実際のコーヒーカップがわずかに左にずれている場合、視覚情報の減衰によってそのずれを修正できなくなる^1
UAORは、この「言語 vs
視覚」の競合が発生した瞬間に視覚側に加勢するレフェリーのような役割を果たす^1^。これは、将来のモデル設計において、言語トークンと視覚トークンのアテンション経路を物理的に分離するか、あるいは意図的に非対称な情報の流れを作るべきであるという設計指針を示唆している^1
自己認識型ロボット・エージェントへの道
アクション・エントロピーを用いたトリガー機構は、ロボットが「自分自身がいつ困惑しているか」を理解するための初期の形と見なすことができる^1^。これは、エージェントが自律的に外部の助け(例:人間の介入や追加のセンサー起動)を求める「アクティブ・パーセプション」の基礎となる技術である^5
将来的に、UAORのような不確定性監視モジュールは、モデルの内部だけでなく、システム全体の「メタ認知」コンポーネントとして発展するだろう^2^。エントロピーが一定時間を超えて高い状態が続けば、ロボットは動作を一時停止し、安全な状態へと移行する、あるいは「視界が悪いためライトを点灯する」といった能動的な環境改善アクションを選択することが可能になる^5
情報理論的効率の追求
UAORの成功は、深層モデルにおける「情報のボトルネック」を外部からバイパスすることの有効性を証明した^1^。これは、現在のトランスフォーマー構造が情報の保存において必ずしも効率的ではないことを示している^1^。特に長期スパンのタスク(LIBERO
Longなど)において、UAORが+2.0%の向上を示したことは、過去の情報をキャッシュして再利用する「メモリ・オーギュメンテッド」なアーキテクチャが、ロボティクスにおいて不可欠であることを裏付けている^1
実装における課題と将来の改善方向
UAORは極めて強力な手法であるが、実運用においてはいくつかの留意点が存在する。
閾値設定の動的な最適化
現在のアクション・エントロピーのトリガーは、固定された閾値に基づいている^1^。しかし、タスクの難易度や環境の複雑さによって、適切な「困惑レベル」は異なる可能性がある^1^。例えば、精密な手術支援ロボットと、広い倉庫での荷物運びロボットでは、許容される不確定性の幅が違うべきである^5^。将来のUAORでは、強化学習やベイズ最適化を用いて、タスクに応じた最適なエントロピー閾値を動的に調整する機能が期待される^1
Proprioception(固有受容感覚)の役割の再定義
研究資料によれば、固有受容感覚トークンを用いた再注入スキームは、視覚情報ほどの一貫した改善をもたらさなかった^2^。これは、ロボット自身の腕の位置よりも、外部世界の物体の位置の方が不確定性の主因になりやすいためと考えられる^2^。しかし、力触覚フィードバック(Tactile
Feedback)などの新しいモーダルが加わった場合、それらをUAORの枠組みで再注入することで、接触を伴う複雑な操作(例:ネジ締めや柔軟物の扱い)の成功率がさらに向上する可能性がある^5
複数カメラ視点への拡張
現在のUAORは主に単一のカメラ視点(多くは一人称視点)を前提としているが、マルチビューVLAモデル(例:BFA++)への拡張が望まれる^3^。複数の視点がある場合、どのアテンション・リトリーバルが最も混乱を解消できるかをエントロピーの減少量(Information
Gain)に基づいて選択するアルゴリズムは、マルチカメラシステムの堅牢性を劇的に高めるだろう^1
結論
UAOR(不確定性考慮型観測再注入)は、視覚・言語・アクションモデルが直面する「観測情報の忘却」という構造的問題に対して、理論的に洗練され、かつ実用的に極めて強力な解決策を提示した^1^。学習を一切必要とせず、推論時にアクション・エントロピーを監視して適応的に介入するその手法は、基盤モデルの汎用性と物理世界への接地のバランスを最適化する新しいスタンダードとなり得る^1
LIBEROおよびSIMPLERベンチマークにおける一貫した成功率の向上、およびROCKETなどの学習型SOTAモデルに匹敵する性能は、UAORが単なる一時的なパッチではなく、ディープな行動生成モデルの本質的な欠陥を補完する重要なアーキテクチャ要素であることを示している^1^。ロボットがより複雑で予測不可能な人間社会へと進出する中で、UAORが提供する「不確定性への自己適応能力」は、安全で信頼性の高い自律システムの構築に向けた不可欠な技術となるだろう^1
本報告書で詳述したUAORのメカニズムは、現在のOpenVLAやCogACTといったモデルの限界を押し広げるだけでなく、次世代の「自己認識型」ロボット知能の開発に向けた明確なロードマップを提示している^1^。トレーニングフリーでプラグアンドプレイというその特性は、爆発的に進化するAIモデルを即座に物理的なアクションへと安全に変換するための、極めて効率的な架け橋となることが期待される^1
引用文献
-
UaOR: Uncertainty-aware Observation Reinjection for
Vision-Language-Action Models, 2月 26, 2026にアクセス、
[https://arxiv.org/html/2602.18020v1]{.underline} -
UAOR: Uncertainty-aware Observation Reinjection for
Vision-Language-Action Models, 2月 26, 2026にアクセス、
[https://openreview.net/forum?id=3azIn8ImwP]{.underline} -
Ed1sonChen/DailyArxiv - GitHub, 2月 26, 2026にアクセス、
[https://github.com/Ed1sonChen/DailyArxiv]{.underline} -
Robotics - arXiv.org, 2月 26, 2026にアクセス、
[https://www.arxiv.org/list/cs.RO/recent?skip=5&show=2000]{.underline} -
BaiShuanghao/my_arXiv_daily - GitHub, 2月 26, 2026にアクセス、
[https://github.com/BaiShuanghao/my_arXiv_daily]{.underline} -
Sergey Levine’s research works | University of California,
Berkeley and other places, 2月 26, 2026にアクセス、
[https://www.researchgate.net/scientific-contributions/Sergey-Levine-2162794215]{.underline} -
ArXiv Papers Browser - Teng Wang, 2月 26, 2026にアクセス、
[http://ttengwang.com/arxiv-papers.html]{.underline} -
SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in
the Wild? | 每日论文, 2月 26, 2026にアクセス、
[https://paper.dou.ac/p/2602.03916v1]{.underline} -
Beyond Closed-Pool Video Retrieval: A Benchmark and Agent Framework
for Real-World Video Search and Moment Localization - arXiv, 2月 26,
2026にアクセス、
[https://arxiv.org/html/2602.10159v1]{.underline} -
Karl Pertsch’s research works | Stanford University and other
places - ResearchGate, 2月 26, 2026にアクセス、
[https://www.researchgate.net/scientific-contributions/Karl-Pertsch-2136123302]{.underline}