Realtime-VLA-v2

Abstract

前作 (Realtime-VLA) ではGPU上のVLA神経計算の高速化を扱ったが、実ロボットへのデプロイは未解決だった
キャリブレーション、プランニング＆制御、学習ベースの手法を組み合わせた実用的なテクニックセットを提示
ロボットの実行速度がカジュアルな人間の操作と同等、軽量アームのハードウェア限界に接近
動画とトレースは https://dexmal.github.io/realtime-vla-v2/ で公開

1 Introduction

VLAベースのロボット高速実行には3つの障壁:
1. ロボットハードウェア: QDDベース軽量アームは急激な加速やジャーキーな動作に弱い
2. 模倣学習の原理: テレオペレーション時の速度は大幅に低下。高速デモデータ収集は困難 → faster-than-demonstrationの実行が必要
3. 成功率の維持: リトライのコストが高速化の利得を相殺
目標: Fast, Smooth, Accurate の3つを同時に達成
実験結果：ロボットがカジュアルな人間操作と同等の速度で動作

2.1 Vision-Language-Action Models

RT-1, RT-2, PaLM-E, ACT, Octo, OpenVLA, Gr00t 等
π0, VLASH は高周波アクション生成・非同期推論で効率改善
本研究はシステムレベル（制御遅延、軌道平滑性、ハードウェアダイナミクス）からアプローチ

2.2 Imitation Learning and Execution Acceleration

DAgger, ACT: データ集約・強力なポリシー表現
faster-than-demonstration: ESPADA, DemoSpeedup（デモ軌道調整）、SpeedAug, SAIL, RLT（データ拡張・オンラインファインチューニング）
本研究: human-modulated rolloutsからfine-grained速度適応を学習。アーキテクチャ変更不要

2.3 System-Level Execution and Control

CHOMP, STOMP, TrajOpt, MPC: 軌道最適化
本研究: temporal alignment, trajectory shaping, closed-loop controlを統合し高速実行

3 Calibration and Identification of the System

3.1 Delays in the System

VLA訓練では理想環境（即時観測・即時行動）を仮定するが、実世界には複数の時間遅延:
- t_camera: 実際の露出からタイムスタンプ取得までの遅延
- t_proprio: 関節位置読み取りの遅延
- t_readout: タイムスタンプ後の画像受信遅延
- t_motion: ロボットダイナミクスによる遅延（PD制御のラグ、最も大きい）
合計遅延: t_motion + t_proprio + t_readout

3.2 Calibration and Compensation

t_readout: システムとカメラのタイムスタンプ比較で計測
t_camera: LED + 高速カメラで計測
t_motion, t_proprio: ロボットを正弦波パターンで動かし、120fpsカメラで記録。位相推定でサブフレーム精度（5ms精度）を実現

DOS W1システム (RealSense D435 + Airbot Play) の計測値

パラメータ	値
t_camera	33ms
t_readout	55ms
t_proprio	50ms
t_motion	150ms

画像・関節の補償: t_camera + t_readoutを統合し、関節位置の履歴バッファから対応する値を取得してVLA入力を時間整合
t_motion補償: 制御ループの結果のためahead-of-timeは不適。軌道後処理で目標位置をプリアンプリファイ（実際のロボットがモデル出力に追従するよう、コマンドを誇張）

4 Post-processing the VLA Trajectory

VLAの出力軌道をモデルに対して透過的に後処理
平滑性が高速実行の最重要要素: ジッタや振動は視覚入力を揺らし、VLAモデルと関節ハードウェアを不安定化
クライアント-サーバー分離を前提:
- サーバー: VLAモデル → Speed Adaptation → Temporal Optimization → クライアントへ送信
- クライアント: Spatial Optimization → 制御・状態推定

4.1 Speed Adaptation and Temporal Optimization

Speed Adaptation Model: チャンクのステップごとの速度（スケーリングファクタ）を決定
Temporal Optimization: 軌道の時間的プロファイルを最適化（パスの形状は変更しない）
- 二次計画問題として定式化:
  - 目的関数: 参照逆時間間隔への追従 + 加速度ペナルティ
  - 制約: Δt の上下限、最大速度制約
- OSQPで解法
- パスを変えずに加速度ピークを分散

4.2 Spatial Optimization and Tracking

局所的に軌道の位置を修正：ハードウェア制約の保証 + ロボット追従制御
ロボット遅延ダイナミクスを線形回帰モデルで表現: q_{k+1} = a·q_k + (1-a)·y_k, a = exp(-h/τ)
MPC (acados, SQP-RTIモード) で実装
- 目的関数: 実現軌道追従 + コマンド追従 + pre-amplification制限 + 1次差分・2次差分正則化
- ハードウェア限界を超える積極的なコマンドを防止しつつ、高速追従を実現

5 Learning When and How to Speedup

実行軌道の多くは高い加速ファクタ (3x-4x) を許容するが、クリティカルなステージではスローダウンが必要
例: shirt-foldingタスクで3x速度時、袖折り（精度・速度の要求が高い）に失敗が集中

5.1 Failure-rate Prediction Model

Q関数学習: 観測と加速ファクタ候補から失敗確率を予測
問題点: ロールアウトデータが不可避的に希少、分布バイアス、閾値チューニングが困難
→ 実用上の課題が多く、代替手法を提案

5.2 Human-in-the-loop Speed Modulation Data Collection

人間オペレータにVLA実行中の「スロットル」入力を付与
快適なら加速、失敗予測時は減速
反復的データ収集:
- 1日目: スロットルデータ収集 → 回帰モデル訓練 → 翌日デプロイ
- 翌日: 高いベース速度で更なる最適化
- 失敗エピソード周辺のラベルは破棄
利点:
- 回帰問題のため過学習しにくい
- データ累積的に利用可能
- 安全のため絶対加速上限 (3x-4x) を設定
将来: RL置換の可能性（現状はサンプル効率で人間に劣る）

6 Experiments

3つのタスクで検証:

Shirt-folding

シャツを2回半分に折り、テーブル右上に配置
事前にシワを伸ばし、袖を折る工程あり
VLA学習の古典的ベンチマーク

Place-into-fixture

PCBをシールドに入れ、シールドをフィクスチャに配置（5つ）
極めて高精度が必要: スルーホールとピンの精密位置合わせ、フィクスチャのマージン0.2mm
モデルが接触・精度要求部分でスローダウンを学習

Pick-and-latch

4つのワークピースをフィクスチャから取り出し、新フィクスチャに配置・ラッチ
現在のVLAの限界に近い精度要求
結果: 全3タスクでほぼ人間の操作速度を達成

7 Upperbound Analysis

ロボットVLA実行速度の上限分析フレームワーク（rooflineモデルに類似）:
- Motion bounded: 加速度・速度・ジャークがハードウェア限界に到達。これ以上の高速化は不可能
- Control bounded: ハードウェアは高速化可能だが制御レイテンシにより成功率維持不可。アクションチャンクの有効長が正でなければならない
軌道をmotion boundedまたはcontrol boundedに分類できれば、速度適応が最適に近い
速度・加速度・ジャークプロファイル分析: 後処理後は加速度・ジャークが均等分散し、多くの区間でmotion-bound（現段階での最適性のシグナル）

8 Conclusion

VLAポリシーのロボット上での実行速度をほぼ人間レベルに高速化
システムレベルとデータ駆動アプローチの組み合わせ
現実的なロボットタスクで印象的な結果を達成