ビジョン・ランゲージ・ステアリング:微分可能な報酬合成を通じた生成型ロボットポリシーの推論時適応における包括的研究報告書

序論:ロボット操作における生成モデルの台頭と適応性の課題

近年のロボット学習、特に模倣学習(Imitation
Learning)の分野においては、拡散モデル(Diffusion
Models)やフローマッチング(Flow-matching)といった生成型ポリシーが主流となっている。これらのモデルは、人間のデモンストレーションに含まれる多峰性(Multimodality)や高次元な行動空間を効果的に学習する能力を持ち、複雑な操作タスクにおいて従来の決定論的な手法を圧倒する成果を上げている^1^。しかし、これらの強力な基盤ポリシーであっても、デプロイ時には依然として深刻な課題に直面している。それは、訓練データとテスト環境の間の空間的、あるいは意味的な不一致、すなわち分布外(Out-of-Distribution,
OOD)シナリオに対する適応能力の欠如である^3

生成型ロボットポリシーが、訓練時とは異なる障害物の配置、支持表面の移動、あるいは軽微な環境の乱れに対して失敗する現象は、ロボットが基本的な運動スキルを欠いていることを意味するのではない。むしろ、行動生成プロセスが訓練時の特定の空間構成やタスク仕様に密接に結合(Tight
Coupling)しているという、模倣学習の本質的な限界を露呈している^1^。このような失敗に対して、再訓練やファインチューニングを行うことは、膨大なデータ収集コストと計算資源を必要とするだけでなく、既存のモデルが既に持っている運動プリミティブを柔軟に活用できないという点で概念的にも非効率である^5

この問題に対し、Vision-Language
Steering(VLS)は、既存の凍結された(Frozen)生成ポリシーを改変することなく、推論時の制御問題として適応を実現する画期的なフレームワークとして提案された^1^。VLSの中核となる思想は、ビジョン・ランゲージ・モデル(VLM)を活用して、テスト時の観測と言語指示から微分可能な報酬関数を動的に合成し、それを用いてポリシーのデノイジング・プロセス(Denoising
Process)を「操舵(Steering)」することにある^1

生成型ロボットポリシーの理論的背景と限界

ロボット操作における拡散ポリシーやフローマッチング・ポリシーは、ノイズから行動軌道を生成する逆プロセスを学習する。拡散モデルにおいては、スコア関数を推定することでデータ分布の勾配に従い、尤度の高い行動をサンプリングする^2^。フローマッチングは、これをさらに一般化し、決定論的なベクトル場を通じてノイズをデータへと変換する連続的なフローを学習する^2^。これらの手法は、軌道全体の構造を捉えることに長けているが、学習された「スコア」は訓練データに存在する特定の幾何学的関係に固執する傾向がある^2

分布シフトが発生した際、これらのモデルのサンプリング・プロセスは、もはや現在の環境における有効な解を指し示さなくなる。例えば、ある特定の棚の高さで物体を置くように訓練されたロボットは、棚の高さが数センチメートル変わっただけで、空中で物体を放す、あるいは棚に衝突するといった挙動を示すことがある。これは、視覚入力と行動出力の間のマッピングが、高次元な特徴空間において極めて局所的であることを示唆している^4^。従来、このギャップを埋めるためには、CLIPのようなビジョン・ランゲージ・モデルを用いて視覚特徴を言語と整合させることが試みられてきたが、OpenVLAのような大規模なVision-Language-Action(VLA)モデルでさえ、空間的な一般化においては依然として脆弱であることが報告されている^4

VLSは、この問題を「推論時適応(Inference-time
Adaptation)」として再定義する。これは、大規模言語モデル(LLM)や画像生成モデルの分野で発展してきた「ステアリング」の概念をロボット工学に拡張したものである。具体的には、モデルのパラメータを一切変更せず、サンプリング時の出力分布を特定の制約(報酬関数)に沿って変形させることで、望ましい行動を誘発する^4

Vision-Language Steering (VLS) の技術的構成

VLSのアーキテクチャは、大きく分けて「OOD入力のグラウンディングと報酬合成」、「推論時のデノイジング誘導」、「閉ループ実行制御」の3つの段階で構成されている^4

幾何学的グラウンディングと3Dスカフォールドの構築

VLSの最初のステップは、高次元のRGB-D観測と言語指示を、ロボットが理解可能なコンパクトな幾何学的表現に変換することである。これを実現するために、VLSはSegment
Anything Model (SAM) と DINOv2
という2つの強力な視覚基盤モデルを採用している^4

SAMは、言語指示に含まれる物体名に基づき、視覚シーン内の該当する物体の精密なマスクを生成する。一方、DINOv2は、物体の意味的な同一性やパーツレベルの空間的特徴を捉える高密度な視覚特徴を抽出する。これらを深度情報(Depth)と統合することで、VLSは「幾何学的スカフォールド(Geometric
Scaffold)」と呼ばれる3Dキーポイントのセット
{width=“1.0270997375328084in”
height=“0.2489938757655293in”}
を構築する^4^。このスカフォールドは、例えば「引き出しのハンドル」や「ボタンの中心点」といった、タスク遂行に不可欠な空間的標識を提供し、物体の外観変化や照明条件の変化に対して堅牢な参照点となる^5

プログラマブルな微分可能報酬の合成

VLSの核心的な革新は、VLM(例えばGPT-4oなど)を「報酬関数の設計者」として利用する点にある。VLMは、現在の観測画像と言語指示を分析し、タスクを複数の実行ステージ(Stage)に分解する。そして、各ステージに対して、PyTorchの演算として記述されたプログラマブルな報酬関数
{width=“0.2473140857392826in”
height=“0.2370100612423447in”} を動的に生成する^4

これらの報酬関数は、前述の3Dキーポイント
{width=“0.15690069991251093in”
height=“0.24058180227471565in”}
を条件として、ロボットの末端効果器(End-effector)の軌道
{width=“0.47599300087489066in”
height=“0.2483442694663167in”}
を評価するように設計されている。重要なのは、これらの報酬関数が「微分可能」であることである。これにより、報酬の勾配を計算し、それをポリシーのサンプリング・プロセスに直接注入することが可能となる^4


コンポーネント 役割 使用される技術・モデル


幾何学的グラウンディング 視覚・言語入力を3D空間のキーポイントへ変換 SAM, DINOv2, RGB-D センサー

タスク分解 複雑なタスクを逐次的なステージに分割 VLM (推論エンジン)

報酬合成 ステージごとの微分可能なPyTorchコードを生成 VLM (コード生成)

スカフォールド構築 空間的制約を表現する3D参照点の生成 特徴マッチングと深度投影

^4^

推論時ステアリングの数学的メカニズム

VLSは、生成ポリシーのデノイジング・ループ内に3つの異なるステアリング・メカニズムを導入することで、サンプリングされる軌道を目標方向に導く。これらは、勾配ベースの精緻化、粒子レベルの多様性維持、そして重要性再サンプリングである^4

勾配ベースの精緻化 (Gradient-based Refinement)

これはVLSの最も主要な駆動源である。拡散モデルやフローマッチングの各デノイジング・ステップ
{width=“0.11149059492563429in”
height=“0.24325240594925635in”} において、合成された報酬関数
{width=“0.2473140857392826in”
height=“0.2370100612423447in”} の勾配
{width=“1.9737915573053368in”
height=“0.25063976377952757in”}
が計算される^4

更新式は概略的に次のように表される:

{width=“6.458333333333333in”
height=“0.42557852143482067in”}

ここで、{width=“0.145670384951881in”
height=“0.23931649168853894in”}
は標準的なデノイジング・ステップを、{width=“0.11759514435695538in”
height=“0.25657042869641294in”} はステアリングの強度(Guidance
Strength)を制御するハイパーパラメータである。このプロセスにより、凍結されたポリシーが生成する「自然な」運動プリミティブを維持しつつ、その到達点や経路をテスト時の要求に合わせて微調整することが可能になる^4

RBFベースの多様性維持 (RBF-based Diversity)

ステアリングを行う際、すべてのサンプリング粒子が同じ局所最適解に収束してしまう「モード崩壊」のリスクがある。これを回避するため、VLSは動径基底関数(RBF)を用いた反発力を導入する。各粒子
{width=“6.958005249343832e-2in”
height=“0.23856080489938758in”} に対して、他の粒子
{width=“9.456364829396326e-2in”
height=“0.25216972878390204in”} との距離の逆数に基づく勾配
{width=“0.40234361329833773in”
height=“0.2475962379702537in”}
を計算し、粒子同士が離れるように誘導する^4

{width=“6.458333333333333in”
height=“0.6346336395450569in”}

この多様性維持メカニズムにより、複数の可能性(例えば、物体の右側から掴むか左側から掴むか)を同時に探索し、最終的により適切な軌道を選択する確率が高まる^4

ファインマン・カッツ再サンプリング (Feynman—Kac Resampling)

勾配情報の利用に加え、VLSは逐次モンテカルロ法の一種であるファインマン・カッツ公式に基づく再サンプリングを採用している^4^。各デノイジング・ステップにおいて、各粒子(行動提案)に対して現在の報酬に基づく重み
{width=“1.5767399387576553in”
height=“0.2506080489938758in”}
を割り当てる。そして、高い重みを持つ粒子を複製し、低い重みを持つ粒子を破棄する。

このプロセスは、サンプリング分布を「報酬が高い領域」へとグローバルにシフトさせる役割を果たす。勾配ベースの手法がローカルな修正を行うのに対し、再サンプリングはサンプルの集団全体をより有望な解の領域へと導くため、非常に効率的なステアリングが可能になる^4

閉ループ制御と時間的安定性

ロボットが実世界でタスクを遂行する際、観測のノイズや物理的な相互作用の不確実性により、推論時のステアリングが不安定になる可能性がある。VLSは、これを解決するために制御理論的なアプローチを導入している^4

シュミット・トリガーによるステージ切り替え

複数のステージからなるタスク(例:引き出しを開けて、中の物を取る)において、あるステージから次のステージへの移行タイミングを決定することは極めて重要である。単純な閾値判定では、境界付近でステージが頻繁に行き来する「チャタリング(振動)」が発生し、ロボットの動作が不安定になる^5

VLSは、ヒステリシス特性を持つシュミット・トリガー(Schmitt-trigger)型の切り替え機構を採用している。ステージの完了を判定する高い閾値と、前のステージに戻ることを防ぐ低い閾値を別々に設定することで、一方向的で安定した進捗を実現する。これは、物理的な不確実性が高い環境下での多段階タスクの実行に不可欠な設計要素である^5

適応型ガイダンス強度

ステアリングの強度 {width=“0.11759514435695538in”
height=“0.25657042869641294in”}
は、常に一定である必要はない。VLSは、現在の報酬フィードバックに基づいて
{width=“0.11759514435695538in”
height=“0.25657042869641294in”}
を動的に調整する「適応型ガイダンス強度」を導入している^4^。目標から遠い(報酬が低い)場合は
{width=“0.11759514435695538in”
height=“0.25657042869641294in”}
を大きくして強力な修正を行い、目標に近づくにつれて
{width=“0.11759514435695538in”
height=“0.25657042869641294in”}
を小さくして凍結されたポリシーが本来持っている滑らかな運動プリミティブを優先させる。この適応的な制御により、OODへの適応と動作の自然さの両立が図られている^4

シミュレーションによる定量的評価:CALVINとLIBERO-PRO

VLSの有効性を検証するため、CALVINおよびLIBERO-PROという、ロボット操作における一般化能力を測定するための主要なベンチマークを用いて広範な実験が行われた。これらの結果は、推論時ステアリングが既存のVLAモデルの限界をいかに打破するかを鮮明に示している^5

CALVIN:長期間タスクにおける空間的一般化

CALVINベンチマークにおいて、VLSは既存のステアリング手法(DynaGuideやITPS)を大幅に上回る成果を上げている。特に、移動可能な物体(立方体)や関節を持つ物体(引き出し、スイッチ)の操作において、ベースとなるポリシーに対して劇的な改善が見られた^4


タスクカテゴリ ベースポリシー成功率 VLS適用後の成功率 向上倍率


移動可能な物体 12.7% 94% 7.4倍
(Cubes)

関節を持つ物体 9.1% 87% 9.6倍
(Articulated)

平均改善幅 - +31% (絶対値) -

^5^

特筆すべきは、VLSがポリシーを一切再訓練することなく、これらの成果を達成した点である。これは、失敗の原因が運動スキルの欠如ではなく、テスト時の空間構成への適合失敗にあるという仮説を裏付けている^1

LIBERO-PRO:意味的・空間的摂動への耐性

LIBERO-PROでは、指示の変更(意味的摂動)や物体の配置変更(空間的摂動)が行われる。ここでもVLSは、OpenVLAや$\pi$-0.5といった最新のVLAモデルに対しても明確な優位性を示した^4


手法 位置摂動 タスク摂動 全体平均
平均成功率
平均成功率


{width=“0.10685258092738407in” 24.25% 23.13% 23.69%
height=“0.23507436570428697in”}-0.5 (LeRobot)

{width=“0.10685258092738407in” 35.13% 38.50% 36.81%
height=“0.23507436570428697in”}-0.5 + VLS

改善幅 +10.88% +15.37% +13.12%

^5^

特に「物体(Object)」の摂動(未知の物体への置き換えなど)において、VLSはベースポリシーの10.50%から41.00%へと大幅な向上を達成した^5

実世界でのデプロイメントと堅牢性の検証

シミュレーションの結果を補完するため、Franka
Emikaロボットを用いた実世界での評価が行われた。実験はキッチン環境で行われ、物体の外観、位置、そしてターゲットの置換という3種類の分布シフトが導入された^3

未知の物体と環境変化への適応

実世界でのロールアウトにおいて、VLSは分布内(In-distribution)タスクで69%の成功率を記録し、これはベースラインを19ポイント上回るものであった。より顕著な差が現れたのは分布外(OOD)シナリオである。例えば、「バナナを掴む」という訓練を受けたモデルに対し、テスト時に「バナナ」を「未知のマグカップ」に置き換えた場合、ベースラインポリシーの成功率は0%にまで低下したが、VLSは40%の試行で成功を収めた^5

この結果は、VLSが単なる幾何学的な調整を超えて、VLMの意味的理解を活用して未知の物体に対する既存スキルの適用(Affordanceの再マッピング)を可能にしていることを示唆している。

コンポーネントの寄与度と計算効率のトレードオフ

アブレーション研究により、VLSの各コンポーネントの重要性が明らかになった。特に「勾配ベースの精緻化」を取り除くと、パフォーマンスが致命的に低下することが確認され、これがVLSの有効性の主因であることが証明された^5

また、サンプリング時の粒子数(バッチサイズ)を増やすほど成功率は向上するが、それに伴って推論のレイテンシが増大するという明確なトレードオフも確認された。実用的なデプロイメントにおいては、タスクの難易度と要求されるリアルタイム性に応じて、この計算資源とパフォーマンスのバランスを調整する必要がある^5

限界点と今後の課題

VLSは強力な適応フレームワークであるが、いくつかの制約も存在する。第一に計算コストである。バッチサンプリング、MCMCの実行、およびファインマン・カッツ再サンプリングは、標準的なポリシーの推論と比較して大きなオーバーヘッドをもたらす。これは、ミリ秒単位の応答が求められる極めて動的なタスクにおいては課題となり得る^5

第二に、ステアリングの品質がVLMの能力に強く依存している点である。VLMがタスクの分解を誤ったり、不適切な報酬コードを生成したりした場合、ロボットの動作は誤った方向に誘導される。現在のVLSは、VLMが生成した報酬の妥当性を検証する仕組みが限定的であり、この信頼性の向上が今後の重要な研究テーマとなる^5

今後の展望としては、「進捗を意識した報酬信号(Progress-aware
Reward)」の動的生成が挙げられる。タスクの実行中にロボット自身の状態や環境の変化をリアルタイムで監視し、報酬関数を逐次的にアップデートすることで、さらに高度な適応が可能になると期待されている。また、計算効率の最適化や、より高速なサンプリング手法(例:Consistency
Models)との統合も有望な方向性である^5

結論

Vision-Language Steering (VLS)
は、生成型ロボットポリシーの推論時適応という課題に対し、トレーニングフリーかつモデルアグノスティックな解決策を提示した。VLMによるプログラマブルな報酬合成と、拡散・フローマッチング・プロセスへの精密な誘導を組み合わせることで、凍結されたポリシーが持つ既存の運動能力を、未知の空間的・意味的コンテキストへと見事に再利用することに成功している^1

CALVIN、LIBERO-PRO、そして実世界のFrankaロボットを用いた広範な実験結果は、VLSが従来の模倣学習やVLAモデルの限界を補完し、デプロイ時の信頼性を飛躍的に高めることを実証した。計算コストやVLMへの依存といった課題はあるものの、本フレームワークが示した「推論時における意味と幾何学の統合」というアプローチは、真に汎用的な
embodied AI
の実現に向けた重要な一歩となるであろう。ロボットが、単に教えられた通りに動く存在から、与えられた知識と言語を通じて未知の状況を自ら操舵し、適応する存在へと進化する可能性をVLSは示している^1

引用文献

  1. VLS: Steering Pretrained Robot Policies via Vision-Language Models -
    Hugging Face, 2月 26, 2026にアクセス、
    [https://huggingface.co/papers/2602.03973]{.underline}

  2. Daily Papers - Hugging Face, 2月 26, 2026にアクセス、
    [https://huggingface.co/papers?q=flow-matching%20policy]{.underline}

  3. [2602.03973] VLS: Steering Pretrained Robot Policies via
    Vision-Language Models - arXiv, 2月 26, 2026にアクセス、
    [https://arxiv.org/abs/2602.03973]{.underline}

  4. VLS: Steering Pretrained Robot Policies via Vision—Language
    Models - arXiv, 2月 26, 2026にアクセス、
    [https://arxiv.org/html/2602.03973v1]{.underline}

  5. VLS: Steering Pretrained Robot Policies via Vision—Language Models,
    2月 26, 2026にアクセス、
    [https://vision-language-steering.github.io/webpage/]{.underline}

  6. CALVIN: A Benchmark for Language-Conditioned Policy Learning for
    Long-Horizon Robot Manipulation Tasks | Request PDF - ResearchGate,
    2月 26, 2026にアクセス、
    [https://www.researchgate.net/publication/361082731_CALVIN_A_Benchmark_for_Language-Conditioned_Policy_Learning_for_Long-Horizon_Robot_Manipulation_Tasks]{.underline}

  7. [Revue de papier] VLS: Steering Pretrained Robot Policies via, 2月
    26, 2026にアクセス、
    [https://www.themoonlight.io/fr/review/vls-steering-pretrained-robot-policies-via-vision-language-models]{.underline}

  8. Feynman-Kac Formulae: Genealogical and Interacting Particle Systems
    With Applications, 2月 26, 2026にアクセス、
    [https://www.researchgate.net/publication/233990793_Feynman-Kac_Formulae_Genealogical_and_Interacting_Particle_Systems_With_Applications]{.underline}