Full Streaming Inference

realtime-vla V1 論文が提案する、VLA の内部構造をそのまま多階層のリアルタイム制御アルゴリズムに対応づける枠組み。従来「VLA は mid-level 制御を担い、力/トルク制御は別アルゴリズム」とされてきたが、VLA 自体が異なる周波数の入出力階層を内包している、という観察に基づく。

核となる観察:カーネルのオーバーラップ

VLM 部は演算律速、Action Expert (AE) 部は IO 律速。2つの CUDA ストリームで同時実行すると両資源が有効活用され、スループットが上がる。

条件時間
Sequential VLM + 10 AE27.3 ms
Concurrent VLM + 10 AE26.3 ms
Concurrent VLM + 16 AE32.7 ms(1/30 s に到達)

→ 1秒間に 30 VLM + 480 AE を回せる。AE を時間軸上に等間隔配置すれば 480 Hz の制御ループが作れる。

3つのフィードバックループ

  1. 力ループ(480 Hz): 力センサ(3D/6D、2 kHz 超サンプル可能・µs レイテンシ)や、力センサがなければモータ電流・抵抗式触覚を AE の追加入力トークンとして注入。新サンプル到着のたびに別ストリームで GPU グローバルメモリを memcpy 更新。AE は緊急停止など即応アクションを生成。最速 2 ms 応答。
  2. 視覚ループ(30 Hz): 画像フレームを VLM が KV キャッシュに変換。画像駆動の反応は最速 1/30 s。
  3. テキストループ(<1 Hz): VLM の重みロードに text 推論をピギーバックさせ、30 token/s の自己回帰テキスト流を追加。ユーザ対話や CoT 推論 に使う(人間の発話は約 3.3 token/s)。

AE の再考:480 Hz への鍵

軌道の出力周波数(ノード密度・補間で自明に上げられる)と制御周波数(刺激→反応の有界時間)は別概念。後者には全パイプラインの高周波処理が要る。鍵は AE の使い方の転換:従来の flow-matching は10 denoise step 完了まで出力が使えないが、各ステップが行動列の一部を逐次生成する自己回帰的な書き換えにする。これは real-time-chunking (RTC) が既に用いている技法。480 ノード/秒の軌道バッファを AE が継続更新し、GPU から取り出された時点で「commit」、AE は未 commit の未来ノードのみ flow 則で更新する。

実装には Persistent Megakernel が適すると示唆。詳細は後続研究に委ねられている。

関連: vla-inference-graph-optimization / faster-than-demonstration-execution / vla