Leave No Observation Behind: Real-time Correction for VLA Action Chunks
- 著者: Kohei Sendai, Maxime Alvarez, Tatsuya Matsushima, Yutaka Matsuo, Yusuke Iwasawa (The University of Tokyo)
- arXiv:2509.23224v1 [cs.RO] 27 Sep 2025
Abstract
- VLA モデルは効率と時間的一貫性のために action chunk を予測するが、推論遅延と長いホライゾン下で反応性(reactivity)が損なわれる。
- Asynchronous Action Chunk Correction (A2C2) を提案。すべての制御ステップで実行される軽量なリアルタイム chunk 補正ヘッドで、任意の既製 VLA の action chunk に time-aware な補正を加える。
- 補正ヘッドの入力は、最新の観測、VLA の予測行動(base action)、chunk 内での base action のインデックスを符号化した位置特徴、base policy からの特徴。出力はステップごとの補正。
- ベースモデルの再学習は不要で、RTC(Real Time Chunking)などの非同期実行手法と直交(orthogonal)する。
- 動的な Kinetix タスクスイート(12 タスク)と LIBERO Spatial で評価。遅延・実行ホライゾンの増加に対し、RTC と比較してそれぞれ +23% point、+7% point の成功率改善。遅延ゼロの長ホライゾンでもロバスト性が向上。
- 補正ヘッドは小さく高速なため、大規模 VLA の推論に対するオーバーヘッドは最小。
1 Introduction
- 大規模 VLA はパラメータ数が多く、1 ステップの行動出力に高い計算コストがかかり、推論遅延が大きい。動的制御では遅延が致命的になる。
- 古い観測から予測した長い行動シーケンスに依存すると、ドリフトや手がかりの見落とし、急速な反応が必要なタスク(移動物体の捕捉、不安定系の安定化)での失敗を招く。
- 例として π0 や OpenVLA は数十億パラメータを持ち、単一の action chunk 生成に数百ミリ秒を要する。chunk はオープンループで実行され、実行中に新しい感覚入力を取り込めない。
- 既存対策: action chunking(推論頻度を減らす)、SmolVLA の同期実行、RTC(拡散ベースの chunk 間の連続性を保証)。しかしいずれも固定長ホライゾンを仮定し、新しい感覚入力への反応性は限定的。
- 二重系(dual-system)推論に着想を得た階層アーキテクチャ(Hi Robot、GR00T-N1)もあるが、低レベル実行器が高レベルモデルの予測を待つため遅延は残る。
- A2C2 は各タイムステップで実行可能な軽量補正ヘッドを導入。high-level モデルが出力した action chunk を参照しつつ最新観測を直接統合する low-level 補正層。base policy と競合せず、リアルタイムフィードバックを注入する。
- 実験結果: Kinetix で遅延存在時に naive 実行比 +35% point、RTC 比 +23% point。長い実行ホライゾンで naive 比 +12% point、RTC 比 +7% point。
- 貢献: (1) action chunk を生成する VLA の推論遅延を定式化、(2) アーキテクチャ非依存な軽量アドオン補正ポリシー A2C2 を提案、(3) 多様な推論遅延下の動的タスク・操作ベンチで大幅な成功率改善を実証。
2 Problem Formulation
- 模倣学習(IL)ポリシー が観測 と言語指示 から action chunk を生成。 はホライゾン長(IL モデルの学習系列長)。
- 実行ホライゾン : chunk のうち実際に使う ステップ。ポリシーは ステップごとに chunk を予測。
- 推論遅延 : 観測 の受信から対応する chunk の取得までの制御ステップ数。。 は推論+通信時間、 は単一制御ステップの持続時間。
- ポリシーサーバは一度に 1 つの推論のみ処理可能と仮定。 が より短いと推論中に行動がなくなり待機時間が発生。 が より長いと推論中に残り行動が枯渇。よって制約は 。
- 各実行行動は少なくとも ステップ前の観測に対応し、最悪の場合 ステップ前の観測から生成された行動を実行することになる。
3 Method
3.1 Overview
- action chunk ベースポリシー を A2C2 の軽量補正ヘッド で拡張。最新観測・base policy の特徴・時間位置特徴を用いて chunk 内の各行動を refine。
- base policy を再学習せずにステップごとのオンライン補正を実現し、RTC と相補的。
- 時刻 で観測 をサーバへ送り、 が遅延 内に chunk を生成。
- 時刻 ()で、時間特徴 、base action 、最新観測 、base policy の最新表現 、言語指示 を補正ヘッドに入力。
- 位置特徴 は正弦波埋め込み で表現。
- 残差行動 を予測。
- 実行行動は 。
- base policy は 遅延で ステップごとに推論する一方、補正ヘッド はモデルサイズが十分小さく毎ステップ実行可能(推論時間が制御ステップ より短い)と仮定。
- 既存の非同期推論手法との違い: (1) Time-aware correction(chunk 内位置に明示的に条件付け)、(2) Chunk-level smoothness(補正対象要素を指定しホライゾン間で滑らかな補正)、(3) Data compatibility(base VLA と同じデモデータで学習、RL ファインチューニング不要)、(4) Real-time feedback(常に新しい観測を取り込み動的タスクでロバスト)。
3.2 Model Training Procedure
- まず base policy をデータセット で学習。 はエピソード数。
- 次に base policy の推論で各ステップの chunk を生成し、補正ヘッド学習用データセット を作成。
- は時刻 の観測から base policy が推論した chunk の 番目の行動。
- 補正ヘッド は残差行動(ターゲット行動と base policy 出力の差)を予測するよう学習。ターゲット行動はエキスパートデモから収集された元の行動。
- 残差ターゲットは ( は base action)。
- 損失関数は平均二乗誤差(MSE): 。 はバッチサイズ。
4 Experimental Setup
4.1 Benchmark and Datasets
- 2 つのシミュレーション環境 Kinetix と LIBERO Spatial を使用。Kinetix は高度に動的な操作・移動タスク、LIBERO Spatial は標準的な操作ベンチ。
- Shukor et al. (2025) が LIBERO Spatial で長ホライゾンが性能を著しく劣化させると報告しており、長ホライゾン下のロバスト性評価に適する。
4.1.1 Kinetix
- Kinetix は 12 の高度に動的なタスクを提供(移動・把持からゲーム的設定まで)。遅延や不整合な行動生成がすぐ失敗につながる。
- 準静的ベンチと異なりトルク・力ベースのアクチュエーションを採用、非同期推論が重要。Kinetix は言語入力なしの 12 タスク。
- RTC の実験に倣い、RPO(Rahman & Xue, 2022)とバイナリ成功報酬でエキスパートポリシーを学習。各環境で 100 万遷移のデータセットを生成。
4.1.2 LIBERO
- LIBERO は生涯ロボット学習・知識転移研究のためのベンチマークスイート(Liu et al., 2023)。本研究では空間推論を重視する LIBERO Spatial を使用。
- LIBERO Spatial は 10 タスクで 432 エピソード、52,970 フレーム。入力は top・wrist RGB 画像(256×256)、8 次元状態、言語指示のマルチモーダル。
4.2 Model Training
- Kinetix: base モデルに flow-matching policy を使用(RTC に倣う)。補正ヘッドは 3 層 MLP。入力層は状態ベクトル(2722 次元)、base action(6 次元)、2 次元正弦波位置特徴を結合。言語指示や base policy の潜在表現は不使用(タスクごとに別々に学習・評価)。隠れ層は各 512 ユニット、ReLU、layer normalization。出力は 6 次元残差ベクトル。総パラメータ数 0.31M。
- LIBERO Spatial: base に SmolVLA(450M パラメータ)を採用。補正ヘッドは transformer encoder と軽量 MLP で構成。視覚観測(top・wrist カメラ)は ImageNet 事前学習の ResNet-18 で 512 次元トークンに符号化。言語指示は base policy の smolVLM encoder で埋め込み。base action・base policy の潜在特徴・正弦波時間埋め込みも 512 次元トークンに射影。全トークンを結合し 6 層 transformer encoder で処理。pooled embedding と base action・状態ベクトルを 3 層 MLP(隠れサイズ 512)に通して残差行動を予測。総パラメータ数 32M。
- Kinetix・LIBERO 両実験のソースコードを公開。
5 Results
5.1 Kinetix
- 推論遅延 と実行ホライゾン を変化させ、12 タスク横断の成功率を評価。各データ点は 2048 ロールアウトの平均。
- ベースライン 2 つ: Naive async(前 chunk を無視し新 chunk 準備でき次第切替)と RTC。
- 両ベースラインは 増加や 長大化で著しく劣化。特に で naive は古い chunk 実行による誤差蓄積で急落。RTC は予測と実行のオーバーラップで部分的に緩和するが、実行ホライゾン増加で劣化。
- A2C2 は全設定で一貫して高い成功率を維持。例として遅延 で naive 比約 35% 高い成功率、 でも 85% 以上を維持。
5.2 LIBERO Spatial
- Naive async と A2C2 を比較。10 操作タスクで、長ホライゾン・注入遅延の両方で補正ヘッドが naive を一貫して上回る。
- 例: 実行ホライゾン ・遅延 で naive は 67% に対し A2C2 は 84%。
- 遅延なしでも長ホライゾン()で 72.2% → 81.6% に向上。
- Table 1(タスクあたり 50 ロールアウト):
- Naive: で 81.8% / A2C2: 89.2%
- Naive: で 64.4% / A2C2: 84.2%
- Naive: で 72.2% / A2C2: 81.6%
6 Related Work
Imitation learning and VLAs
- IL はデモから学習。Diffusion Policy(拡散モデルで多峰性を扱う)、ACT(transformer ベースで action chunk 出力)、Flow Policy(連続輸送マップで行動生成)などが consistency と scalability を改善。
- これらを基盤に VLA 基盤モデル群(π0、OpenVLA、GR00T、SmolVLA)が登場。chunk ベース予測が事実上の標準。π0 は約 3B、OpenVLA は約 7B パラメータで、推論遅延が顕著。
Asynchronous chunk execution
- SmolVLA はサーバ・クライアントアーキテクチャを提案。サーバが 制御ステップ遅延で推論、ホライゾン の chunk をクライアントへ送信、クライアントが逐次実行。新 chunk 到着まで前 chunk を実行するため連続 chunk 間の不整合(例: 左回避 vs 右回避)リスクがある。
- RTC は chunk 切替を inpainting 問題として定式化し、現 chunk 実行中に次 chunk を生成。実行確定行動を「凍結」し残りを「inpaint」する推論時アルゴリズム。
Reducing inference latency
- Streaming Diffusion Policy / Streaming Flow Policy は高速推論を可能にする学習手順を提示。モデル圧縮やメモリ最適化も推論速度を改善。
- ただしモデル規模・通信オーバーヘッドにより行動生成が制御ステップより速くならない限り、本研究で扱う課題は残る。
7 Conclusion
- A2C2 は大規模 base policy(VLA など)を軽量な行動補正ヘッドで拡張し、推論遅延・長実行ホライゾン下の反応性維持の課題に対処。
- 補正ヘッドは base policy と同じデータセットで学習でき、原理的に任意の既製 VLA に追加可能。
- Kinetix と LIBERO Spatial の両方で、naive や RTC が著しく劣化する設定でも一貫して高い成功率を維持。
- 今後の課題: より豊かな言語指示、分布外設定、LIBERO Spatial 以上の動的タスクへのスケーラビリティ検証。
- VLA がスケーリング則に従い大型化する流れの中で、A2C2 は通信遅延を推論遅延の一部として扱い client–server アーキテクチャに自然に拡張でき、スケールと反応性を両立する次世代 VLA への道筋を提供する。
Appendix A(主要な事実)
A.1 Kinetix Simulation Detail
- Kinetix は RTC 論文で使われた 12 タスクを再利用。観測空間は 2722 次元(画像なし、ポリゴン・円・ジョイント・スラスタ・重力・モータ/スラスタ状態を符号化、未使用エンティティはゼロパディング)。行動空間は 6 次元(前 4 つがモータ制御、後 2 つがスラスタ制御)。
- データ生成: RPO で各タスク 8 シードを 6400 万環境ステップ学習し、最良チェックポイントで各タスク 100 万ステップ生成。最適化器は AdamW。
- 評価: タスクあたり 2048 ロールアウト。Table 4 はタスクあたり 10 ロールアウト・10 タスクで naive / RTC / A2C2 の成功率を記載。
A.2 LIBERO Simulation Detail
- LIBERO Spatial は 10 タスク。SmolVLA は Franka アームと異なる embodiment(SO-101)で主に事前学習されているため、スクラッチ学習を選択。
- SmolVLA はコサインスケジューラでスクラッチ学習。補正ヘッドは定数学習率 1e-5 を使用(1e-4 のような高い学習率は機能しない)。最適化器は AdamW。
- 評価: まず遅延・ホライゾンの様々な組合せを各タスク 10 ロールアウトで評価。次に (d,e)=(0,10),(10,40),(0,50) の 3 組をタスクあたり 50 ロールアウトで精密評価。Table 7 に全結果。
A.4 Computational Resources
- 学習は NVIDIA RTX A6000 と H200 GPU。Kinetix は A6000 で 1 タスク約 20 分、LIBERO の残差学習(200k ステップ)は H200 で約 4 時間。
A.5 Inference Time Comparison
- NVIDIA RTX 5080 ラップトップ GPU(16GB VRAM)で 100 試行のステップあたり平均推論時間を計測。
- SmolVLA(base policy, 450M): 101 msec、補正ヘッド(32M): 4.7 msec。
- 補正ヘッドは約 20 倍高速で、高頻度制御ループに統合しても過大なオーバーヘッドを生じない。
ファクトチェック結果
論文メモを原文(arXiv:2509.23224v1)と照合した結果、以下を確認:
- A2C2 = Asynchronous Action Chunk Correction、軽量補正ヘッド、毎制御ステップ実行、base 再学習不要、RTC と直交。一致。
- 補正ヘッド入力(最新観測、base action、位置特徴 、base policy 特徴 、言語指示 )と出力(残差 )、実行行動 。一致。
- 位置特徴は正弦波埋め込み 。一致。
- 遅延定式化 、制約 、最悪 ステップ前の観測。一致。
- 損失は MSE。学習データは base policy と同一デモデータ、RL 不要。一致。
- Kinetix: 12 タスク、観測 2722 次元、行動 6 次元、補正ヘッド 0.31M パラメータ(3 層 MLP, 512 ユニット, ReLU, LayerNorm)。一致。
- LIBERO Spatial: 10 タスク、432 エピソード、52,970 フレーム、256×256 画像、8 次元状態。SmolVLA 450M、補正ヘッド 32M(6 層 transformer encoder + 3 層 MLP, ResNet-18 視覚エンコーダ)。一致。
- Kinetix 改善: naive 比 +35% point、RTC 比 +23% point(遅延時)。長ホライゾンで naive 比 +12% point、RTC 比 +7% point。一致。
- Table 1 の数値(81.8/89.2, 64.4/84.2, 72.2/81.6)。一致。
- 推論時間: SmolVLA 101 msec、補正ヘッド 4.7 msec、約 20 倍高速。一致。
- 注意点: Abstract の改善要約は「RTC 比 +23% point(遅延)/ +7% point(ホライゾン)」、Introduction の「naive 比 +35% / +12% point」と比較対象が異なる(いずれも原文通り。ブログ記述時に対象を明示すべき)。