Leave No Observation Behind: Real-time Correction for VLA Action Chunks

著者: Kohei Sendai, Maxime Alvarez, Tatsuya Matsushima, Yutaka Matsuo, Yusuke Iwasawa (The University of Tokyo)
arXiv:2509.23224v1 [cs.RO] 27 Sep 2025

Abstract

VLA モデルは効率と時間的一貫性のために action chunk を予測するが、推論遅延と長いホライゾン下で反応性（reactivity）が損なわれる。
Asynchronous Action Chunk Correction (A2C2) を提案。すべての制御ステップで実行される軽量なリアルタイム chunk 補正ヘッドで、任意の既製 VLA の action chunk に time-aware な補正を加える。
補正ヘッドの入力は、最新の観測、VLA の予測行動（base action）、chunk 内での base action のインデックスを符号化した位置特徴、base policy からの特徴。出力はステップごとの補正。
ベースモデルの再学習は不要で、RTC（Real Time Chunking）などの非同期実行手法と直交（orthogonal）する。
動的な Kinetix タスクスイート（12 タスク）と LIBERO Spatial で評価。遅延・実行ホライゾンの増加に対し、RTC と比較してそれぞれ +23% point、+7% point の成功率改善。遅延ゼロの長ホライゾンでもロバスト性が向上。
補正ヘッドは小さく高速なため、大規模 VLA の推論に対するオーバーヘッドは最小。

1 Introduction

大規模 VLA はパラメータ数が多く、1 ステップの行動出力に高い計算コストがかかり、推論遅延が大きい。動的制御では遅延が致命的になる。
古い観測から予測した長い行動シーケンスに依存すると、ドリフトや手がかりの見落とし、急速な反応が必要なタスク（移動物体の捕捉、不安定系の安定化）での失敗を招く。
例として π0 や OpenVLA は数十億パラメータを持ち、単一の action chunk 生成に数百ミリ秒を要する。chunk はオープンループで実行され、実行中に新しい感覚入力を取り込めない。
既存対策: action chunking（推論頻度を減らす）、SmolVLA の同期実行、RTC（拡散ベースの chunk 間の連続性を保証）。しかしいずれも固定長ホライゾンを仮定し、新しい感覚入力への反応性は限定的。
二重系（dual-system）推論に着想を得た階層アーキテクチャ（Hi Robot、GR00T-N1）もあるが、低レベル実行器が高レベルモデルの予測を待つため遅延は残る。
A2C2 は各タイムステップで実行可能な軽量補正ヘッドを導入。high-level モデルが出力した action chunk を参照しつつ最新観測を直接統合する low-level 補正層。base policy と競合せず、リアルタイムフィードバックを注入する。
実験結果: Kinetix で遅延存在時に naive 実行比 +35% point、RTC 比 +23% point。長い実行ホライゾンで naive 比 +12% point、RTC 比 +7% point。
貢献: (1) action chunk を生成する VLA の推論遅延を定式化、(2) アーキテクチャ非依存な軽量アドオン補正ポリシー A2C2 を提案、(3) 多様な推論遅延下の動的タスク・操作ベンチで大幅な成功率改善を実証。

2 Problem Formulation

模倣学習（IL）ポリシー $π$ が観測 $o_{t}$ と言語指示 $l$ から action chunk $A_{t} = {a_{t}, \dots, a_{t + H - 1}}$ を生成。 $H$ はホライゾン長（IL モデルの学習系列長）。
実行ホライゾン $e$ : chunk のうち実際に使う $e$ ステップ。ポリシーは $e$ ステップごとに chunk を予測。
推論遅延 $d$ : 観測 $o_{t}$ の受信から対応する chunk $A_{t}$ の取得までの制御ステップ数。 $d = ⌊ δ /Δ t ⌋$ 。 $δ$ は推論＋通信時間、 $Δ t$ は単一制御ステップの持続時間。
ポリシーサーバは一度に 1 つの推論のみ処理可能と仮定。 $e$ が $d$ より短いと推論中に行動がなくなり待機時間が発生。 $e$ が $H - d$ より長いと推論中に残り行動が枯渇。よって制約は $d \leq e \leq H - d$ 。
各実行行動は少なくとも $d$ ステップ前の観測に対応し、最悪の場合 $d + e$ ステップ前の観測から生成された行動を実行することになる。

3 Method

3.1 Overview

action chunk ベースポリシー $π$ を A2C2 の軽量補正ヘッド $π_{a 2 c 2}$ で拡張。最新観測・base policy の特徴・時間位置特徴を用いて chunk 内の各行動を refine。
base policy を再学習せずにステップごとのオンライン補正を実現し、RTC と相補的。
時刻 $t$ で観測 $o_{t}$ をサーバへ送り、 $π$ が遅延 $d$ 内に chunk $A_{t} = {a_{t}^{ba se}, \dots, a_{t + H - 1}^{ba se}} = π (o_{t}, l)$ を生成。
時刻 $t + k$ （ $d \leq k \leq d + e$ ）で、時間特徴 $τ_{k}$ 、base action $a_{t + k}$ 、最新観測 $o_{t + k}$ 、base policy の最新表現 $z_{t}$ 、言語指示 $l$ を補正ヘッドに入力。
位置特徴 $τ_{k}$ は正弦波埋め込み $(sin (2 π k / H), cos (2 π k / H))$ で表現。
残差行動 $Δ a_{t + k} = π_{a 2 c 2} (o_{t + k}, a_{t + k}^{ba se}, τ_{k}, z_{t + k}, l)$ を予測。
実行行動は $a_{t + k}^{e x ec} = a_{t + k}^{ba se} + Δ a_{t + k}$ 。
base policy $π$ は $d$ 遅延で $e$ ステップごとに推論する一方、補正ヘッド $π_{a 2 c 2}$ はモデルサイズが十分小さく毎ステップ実行可能（推論時間が制御ステップ $Δ t$ より短い）と仮定。
既存の非同期推論手法との違い: (1) Time-aware correction（chunk 内位置に明示的に条件付け）、(2) Chunk-level smoothness（補正対象要素を指定しホライゾン間で滑らかな補正）、(3) Data compatibility（base VLA と同じデモデータで学習、RL ファインチューニング不要）、(4) Real-time feedback（常に新しい観測を取り込み動的タスクでロバスト）。

3.2 Model Training Procedure

まず base policy $π$ をデータセット $D_{ba se} = {{{o_{t}, a_{t}}_{t = 0 \dots T_{n}}^{n}, l_{n}}_{n = 1 \dots N}}$ で学習。 $N$ はエピソード数。
次に base policy の推論で各ステップの chunk $\hat{A}_{t} = {\overset{a}{^}_{t}, \dots, \overset{a}{^}_{t + H - 1}} = π (o_{t}, l)$ を生成し、補正ヘッド学習用データセット $D_{cor}$ を作成。
$\overset{a}{^}_{t - k}^{k}$ は時刻 $t - k$ の観測から base policy が推論した chunk の $k$ 番目の行動。
補正ヘッド $π_{a 2 c 2}$ は残差行動（ターゲット行動と base policy 出力の差）を予測するよう学習。ターゲット行動はエキスパートデモから収集された元の行動。
残差ターゲットは $Δ a_{r es i d u a l} = a - \overset{a}{^}$ （ $\overset{a}{^}$ は base action）。
損失関数は平均二乗誤差（MSE）: $L_{M S E} = \frac{1}{N} \sum_{i = 1}^{N} ∥Δ a_{r es i d u a l}^{(i)} - (a^{(i)} - \overset{a}{^}^{(i)}) ∥_{2}^{2}$ 。 $N$ はバッチサイズ。

4 Experimental Setup

4.1 Benchmark and Datasets

2 つのシミュレーション環境 Kinetix と LIBERO Spatial を使用。Kinetix は高度に動的な操作・移動タスク、LIBERO Spatial は標準的な操作ベンチ。
Shukor et al. (2025) が LIBERO Spatial で長ホライゾンが性能を著しく劣化させると報告しており、長ホライゾン下のロバスト性評価に適する。

4.1.1 Kinetix

Kinetix は 12 の高度に動的なタスクを提供（移動・把持からゲーム的設定まで）。遅延や不整合な行動生成がすぐ失敗につながる。
準静的ベンチと異なりトルク・力ベースのアクチュエーションを採用、非同期推論が重要。Kinetix は言語入力なしの 12 タスク。
RTC の実験に倣い、RPO（Rahman & Xue, 2022）とバイナリ成功報酬でエキスパートポリシーを学習。各環境で 100 万遷移のデータセットを生成。

4.1.2 LIBERO

LIBERO は生涯ロボット学習・知識転移研究のためのベンチマークスイート（Liu et al., 2023）。本研究では空間推論を重視する LIBERO Spatial を使用。
LIBERO Spatial は 10 タスクで 432 エピソード、52,970 フレーム。入力は top・wrist RGB 画像（256×256）、8 次元状態、言語指示のマルチモーダル。

4.2 Model Training

Kinetix: base モデルに flow-matching policy を使用（RTC に倣う）。補正ヘッドは 3 層 MLP。入力層は状態ベクトル（2722 次元）、base action（6 次元）、2 次元正弦波位置特徴を結合。言語指示や base policy の潜在表現は不使用（タスクごとに別々に学習・評価）。隠れ層は各 512 ユニット、ReLU、layer normalization。出力は 6 次元残差ベクトル。総パラメータ数 0.31M。
LIBERO Spatial: base に SmolVLA（450M パラメータ）を採用。補正ヘッドは transformer encoder と軽量 MLP で構成。視覚観測（top・wrist カメラ）は ImageNet 事前学習の ResNet-18 で 512 次元トークンに符号化。言語指示は base policy の smolVLM encoder で埋め込み。base action・base policy の潜在特徴・正弦波時間埋め込みも 512 次元トークンに射影。全トークンを結合し 6 層 transformer encoder で処理。pooled embedding と base action・状態ベクトルを 3 層 MLP（隠れサイズ 512）に通して残差行動を予測。総パラメータ数 32M。
Kinetix・LIBERO 両実験のソースコードを公開。

5 Results

5.1 Kinetix

推論遅延 $d$ と実行ホライゾン $e$ を変化させ、12 タスク横断の成功率を評価。各データ点は 2048 ロールアウトの平均。
ベースライン 2 つ: Naive async（前 chunk を無視し新 chunk 準備でき次第切替）と RTC。
両ベースラインは $d$ 増加や $H$ 長大化で著しく劣化。特に $d \geq 3$ で naive は古い chunk 実行による誤差蓄積で急落。RTC は予測と実行のオーバーラップで部分的に緩和するが、実行ホライゾン増加で劣化。
A2C2 は全設定で一貫して高い成功率を維持。例として遅延 $d = 4$ で naive 比約 35% 高い成功率、 $H = 7$ でも 85% 以上を維持。

5.2 LIBERO Spatial

Naive async と A2C2 を比較。10 操作タスクで、長ホライゾン・注入遅延の両方で補正ヘッドが naive を一貫して上回る。
例: 実行ホライゾン $H = 40$ ・遅延 $d = 10$ で naive は 67% に対し A2C2 は 84%。
遅延なしでも長ホライゾン（ $H = 50, d = 0$ ）で 72.2% → 81.6% に向上。
Table 1（タスクあたり 50 ロールアウト）:
- Naive: $e = 10, d = 0$ で 81.8% / A2C2: 89.2%
- Naive: $e = 40, d = 10$ で 64.4% / A2C2: 84.2%
- Naive: $e = 50, d = 0$ で 72.2% / A2C2: 81.6%

Imitation learning and VLAs

IL はデモから学習。Diffusion Policy（拡散モデルで多峰性を扱う）、ACT（transformer ベースで action chunk 出力）、Flow Policy（連続輸送マップで行動生成）などが consistency と scalability を改善。
これらを基盤に VLA 基盤モデル群（π0、OpenVLA、GR00T、SmolVLA）が登場。chunk ベース予測が事実上の標準。π0 は約 3B、OpenVLA は約 7B パラメータで、推論遅延が顕著。

Asynchronous chunk execution

SmolVLA はサーバ・クライアントアーキテクチャを提案。サーバが $d$ 制御ステップ遅延で推論、ホライゾン $H$ の chunk をクライアントへ送信、クライアントが逐次実行。新 chunk 到着まで前 chunk を実行するため連続 chunk 間の不整合（例: 左回避 vs 右回避）リスクがある。
RTC は chunk 切替を inpainting 問題として定式化し、現 chunk 実行中に次 chunk を生成。実行確定行動を「凍結」し残りを「inpaint」する推論時アルゴリズム。

Reducing inference latency

Streaming Diffusion Policy / Streaming Flow Policy は高速推論を可能にする学習手順を提示。モデル圧縮やメモリ最適化も推論速度を改善。
ただしモデル規模・通信オーバーヘッドにより行動生成が制御ステップより速くならない限り、本研究で扱う課題は残る。

7 Conclusion

A2C2 は大規模 base policy（VLA など）を軽量な行動補正ヘッドで拡張し、推論遅延・長実行ホライゾン下の反応性維持の課題に対処。
補正ヘッドは base policy と同じデータセットで学習でき、原理的に任意の既製 VLA に追加可能。
Kinetix と LIBERO Spatial の両方で、naive や RTC が著しく劣化する設定でも一貫して高い成功率を維持。
今後の課題: より豊かな言語指示、分布外設定、LIBERO Spatial 以上の動的タスクへのスケーラビリティ検証。
VLA がスケーリング則に従い大型化する流れの中で、A2C2 は通信遅延を推論遅延の一部として扱い client–server アーキテクチャに自然に拡張でき、スケールと反応性を両立する次世代 VLA への道筋を提供する。

Appendix A（主要な事実）

A.1 Kinetix Simulation Detail

Kinetix は RTC 論文で使われた 12 タスクを再利用。観測空間は 2722 次元（画像なし、ポリゴン・円・ジョイント・スラスタ・重力・モータ/スラスタ状態を符号化、未使用エンティティはゼロパディング）。行動空間は 6 次元（前 4 つがモータ制御、後 2 つがスラスタ制御）。
データ生成: RPO で各タスク 8 シードを 6400 万環境ステップ学習し、最良チェックポイントで各タスク 100 万ステップ生成。最適化器は AdamW。
評価: タスクあたり 2048 ロールアウト。Table 4 はタスクあたり 10 ロールアウト・10 タスクで naive / RTC / A2C2 の成功率を記載。

A.2 LIBERO Simulation Detail

LIBERO Spatial は 10 タスク。SmolVLA は Franka アームと異なる embodiment（SO-101）で主に事前学習されているため、スクラッチ学習を選択。
SmolVLA はコサインスケジューラでスクラッチ学習。補正ヘッドは定数学習率 1e-5 を使用（1e-4 のような高い学習率は機能しない）。最適化器は AdamW。
評価: まず遅延・ホライゾンの様々な組合せを各タスク 10 ロールアウトで評価。次に (d,e)=(0,10),(10,40),(0,50) の 3 組をタスクあたり 50 ロールアウトで精密評価。Table 7 に全結果。

A.4 Computational Resources

学習は NVIDIA RTX A6000 と H200 GPU。Kinetix は A6000 で 1 タスク約 20 分、LIBERO の残差学習（200k ステップ）は H200 で約 4 時間。

A.5 Inference Time Comparison

NVIDIA RTX 5080 ラップトップ GPU（16GB VRAM）で 100 試行のステップあたり平均推論時間を計測。
SmolVLA（base policy, 450M）: 101 msec、補正ヘッド（32M）: 4.7 msec。
補正ヘッドは約 20 倍高速で、高頻度制御ループに統合しても過大なオーバーヘッドを生じない。

ファクトチェック結果

論文メモを原文（arXiv:2509.23224v1）と照合した結果、以下を確認:

Quartz 5

Explorer

Leave No Observation Behind: Real-time Correction for VLA Action Chunks

Leave No Observation Behind: Real-time Correction for VLA Action Chunks

Abstract

1 Introduction

2 Problem Formulation

3 Method

3.1 Overview

3.2 Model Training Procedure

4 Experimental Setup

4.1 Benchmark and Datasets

4.1.1 Kinetix

4.1.2 LIBERO

4.2 Model Training

5 Results

5.1 Kinetix

5.2 LIBERO Spatial

Imitation learning and VLAs

Asynchronous chunk execution

Reducing inference latency

7 Conclusion

Appendix A（主要な事実）

A.1 Kinetix Simulation Detail

A.2 LIBERO Simulation Detail

A.4 Computational Resources

A.5 Inference Time Comparison

ファクトチェック結果

Graph View

Table of Contents

Backlinks

Quartz 5

Explorer

Leave No Observation Behind: Real-time Correction for VLA Action Chunks

Leave No Observation Behind: Real-time Correction for VLA Action Chunks

Abstract

1 Introduction

2 Problem Formulation

3 Method

3.1 Overview

3.2 Model Training Procedure

4 Experimental Setup

4.1 Benchmark and Datasets

4.1.1 Kinetix

4.1.2 LIBERO

4.2 Model Training

5 Results

5.1 Kinetix

5.2 LIBERO Spatial

6 Related Work

Imitation learning and VLAs

Asynchronous chunk execution

Reducing inference latency

7 Conclusion

Appendix A（主要な事実）

A.1 Kinetix Simulation Detail

A.2 LIBERO Simulation Detail

A.4 Computational Resources

A.5 Inference Time Comparison

ファクトチェック結果

Graph View

Table of Contents

Backlinks