Realtime-VLA-v2
Abstract
- 前作 (Realtime-VLA) ではGPU上のVLA神経計算の高速化を扱ったが、実ロボットへのデプロイは未解決だった
- キャリブレーション、プランニング&制御、学習ベースの手法を組み合わせた実用的なテクニックセットを提示
- ロボットの実行速度がカジュアルな人間の操作と同等、軽量アームのハードウェア限界に接近
- 動画とトレースは https://dexmal.github.io/realtime-vla-v2/ で公開
1 Introduction
- VLAベースのロボット高速実行には3つの障壁:
- ロボットハードウェア: QDDベース軽量アームは急激な加速やジャーキーな動作に弱い
- 模倣学習の原理: テレオペレーション時の速度は大幅に低下。高速デモデータ収集は困難 → faster-than-demonstrationの実行が必要
- 成功率の維持: リトライのコストが高速化の利得を相殺
- 目標: Fast, Smooth, Accurate の3つを同時に達成
- 実験結果:ロボットがカジュアルな人間操作と同等の速度で動作
2 Related Works
2.1 Vision-Language-Action Models
- RT-1, RT-2, PaLM-E, ACT, Octo, OpenVLA, Gr00t 等
- π0, VLASH は高周波アクション生成・非同期推論で効率改善
- 本研究はシステムレベル(制御遅延、軌道平滑性、ハードウェアダイナミクス)からアプローチ
2.2 Imitation Learning and Execution Acceleration
- DAgger, ACT: データ集約・強力なポリシー表現
- faster-than-demonstration: ESPADA, DemoSpeedup(デモ軌道調整)、SpeedAug, SAIL, RLT(データ拡張・オンラインファインチューニング)
- 本研究: human-modulated rolloutsからfine-grained速度適応を学習。アーキテクチャ変更不要
2.3 System-Level Execution and Control
- CHOMP, STOMP, TrajOpt, MPC: 軌道最適化
- 本研究: temporal alignment, trajectory shaping, closed-loop controlを統合し高速実行
3 Calibration and Identification of the System
3.1 Delays in the System
- VLA訓練では理想環境(即時観測・即時行動)を仮定するが、実世界には複数の時間遅延:
- t_camera: 実際の露出からタイムスタンプ取得までの遅延
- t_proprio: 関節位置読み取りの遅延
- t_readout: タイムスタンプ後の画像受信遅延
- t_motion: ロボットダイナミクスによる遅延(PD制御のラグ、最も大きい)
- 合計遅延: t_motion + t_proprio + t_readout
3.2 Calibration and Compensation
- t_readout: システムとカメラのタイムスタンプ比較で計測
- t_camera: LED + 高速カメラで計測
- t_motion, t_proprio: ロボットを正弦波パターンで動かし、120fpsカメラで記録。位相推定でサブフレーム精度(5ms精度)を実現
DOS W1システム (RealSense D435 + Airbot Play) の計測値
| パラメータ | 値 |
|---|---|
| t_camera | 33ms |
| t_readout | 55ms |
| t_proprio | 50ms |
| t_motion | 150ms |
- 画像・関節の補償: t_camera + t_readoutを統合し、関節位置の履歴バッファから対応する値を取得してVLA入力を時間整合
- t_motion補償: 制御ループの結果のためahead-of-timeは不適。軌道後処理で目標位置をプリアンプリファイ(実際のロボットがモデル出力に追従するよう、コマンドを誇張)
4 Post-processing the VLA Trajectory
- VLAの出力軌道をモデルに対して透過的に後処理
- 平滑性が高速実行の最重要要素: ジッタや振動は視覚入力を揺らし、VLAモデルと関節ハードウェアを不安定化
- クライアント-サーバー分離を前提:
- サーバー: VLAモデル → Speed Adaptation → Temporal Optimization → クライアントへ送信
- クライアント: Spatial Optimization → 制御・状態推定
4.1 Speed Adaptation and Temporal Optimization
- Speed Adaptation Model: チャンクのステップごとの速度(スケーリングファクタ)を決定
- Temporal Optimization: 軌道の時間的プロファイルを最適化(パスの形状は変更しない)
- 二次計画問題として定式化:
- 目的関数: 参照逆時間間隔への追従 + 加速度ペナルティ
- 制約: Δt の上下限、最大速度制約
- OSQPで解法
- パスを変えずに加速度ピークを分散
- 二次計画問題として定式化:
4.2 Spatial Optimization and Tracking
- 局所的に軌道の位置を修正:ハードウェア制約の保証 + ロボット追従制御
- ロボット遅延ダイナミクスを線形回帰モデルで表現: q_{k+1} = a·q_k + (1-a)·y_k, a = exp(-h/τ)
- MPC (acados, SQP-RTIモード) で実装
- 目的関数: 実現軌道追従 + コマンド追従 + pre-amplification制限 + 1次差分・2次差分正則化
- ハードウェア限界を超える積極的なコマンドを防止しつつ、高速追従を実現
5 Learning When and How to Speedup
- 実行軌道の多くは高い加速ファクタ (3x-4x) を許容するが、クリティカルなステージではスローダウンが必要
- 例: shirt-foldingタスクで3x速度時、袖折り(精度・速度の要求が高い)に失敗が集中
5.1 Failure-rate Prediction Model
- Q関数学習: 観測と加速ファクタ候補から失敗確率を予測
- 問題点: ロールアウトデータが不可避的に希少、分布バイアス、閾値チューニングが困難
- → 実用上の課題が多く、代替手法を提案
5.2 Human-in-the-loop Speed Modulation Data Collection
- 人間オペレータにVLA実行中の「スロットル」入力を付与
- 快適なら加速、失敗予測時は減速
- 反復的データ収集:
- 1日目: スロットルデータ収集 → 回帰モデル訓練 → 翌日デプロイ
- 翌日: 高いベース速度で更なる最適化
- 失敗エピソード周辺のラベルは破棄
- 利点:
- 回帰問題のため過学習しにくい
- データ累積的に利用可能
- 安全のため絶対加速上限 (3x-4x) を設定
- 将来: RL置換の可能性(現状はサンプル効率で人間に劣る)
6 Experiments
- 3つのタスクで検証:
Shirt-folding
- シャツを2回半分に折り、テーブル右上に配置
- 事前にシワを伸ばし、袖を折る工程あり
- VLA学習の古典的ベンチマーク
Place-into-fixture
- PCBをシールドに入れ、シールドをフィクスチャに配置(5つ)
- 極めて高精度が必要: スルーホールとピンの精密位置合わせ、フィクスチャのマージン0.2mm
- モデルが接触・精度要求部分でスローダウンを学習
Pick-and-latch
-
4つのワークピースをフィクスチャから取り出し、新フィクスチャに配置・ラッチ
-
現在のVLAの限界に近い精度要求
-
結果: 全3タスクでほぼ人間の操作速度を達成
7 Upperbound Analysis
- ロボットVLA実行速度の上限分析フレームワーク(rooflineモデルに類似):
- Motion bounded: 加速度・速度・ジャークがハードウェア限界に到達。これ以上の高速化は不可能
- Control bounded: ハードウェアは高速化可能だが制御レイテンシにより成功率維持不可。アクションチャンクの有効長が正でなければならない
- 軌道をmotion boundedまたはcontrol boundedに分類できれば、速度適応が最適に近い
- 速度・加速度・ジャークプロファイル分析: 後処理後は加速度・ジャークが均等分散し、多くの区間でmotion-bound(現段階での最適性のシグナル)
8 Conclusion
- VLAポリシーのロボット上での実行速度をほぼ人間レベルに高速化
- システムレベルとデータ駆動アプローチの組み合わせ
- 現実的なロボットタスクで印象的な結果を達成