Realtime-VLA-v2

Abstract

  • 前作 (Realtime-VLA) ではGPU上のVLA神経計算の高速化を扱ったが、実ロボットへのデプロイは未解決だった
  • キャリブレーション、プランニング&制御、学習ベースの手法を組み合わせた実用的なテクニックセットを提示
  • ロボットの実行速度がカジュアルな人間の操作と同等、軽量アームのハードウェア限界に接近
  • 動画とトレースは https://dexmal.github.io/realtime-vla-v2/ で公開

1 Introduction

  • VLAベースのロボット高速実行には3つの障壁:
    1. ロボットハードウェア: QDDベース軽量アームは急激な加速やジャーキーな動作に弱い
    2. 模倣学習の原理: テレオペレーション時の速度は大幅に低下。高速デモデータ収集は困難 → faster-than-demonstrationの実行が必要
    3. 成功率の維持: リトライのコストが高速化の利得を相殺
  • 目標: Fast, Smooth, Accurate の3つを同時に達成
  • 実験結果:ロボットがカジュアルな人間操作と同等の速度で動作

2.1 Vision-Language-Action Models

  • RT-1, RT-2, PaLM-E, ACT, Octo, OpenVLA, Gr00t 等
  • π0, VLASH は高周波アクション生成・非同期推論で効率改善
  • 本研究はシステムレベル(制御遅延、軌道平滑性、ハードウェアダイナミクス)からアプローチ

2.2 Imitation Learning and Execution Acceleration

  • DAgger, ACT: データ集約・強力なポリシー表現
  • faster-than-demonstration: ESPADA, DemoSpeedup(デモ軌道調整)、SpeedAug, SAIL, RLT(データ拡張・オンラインファインチューニング)
  • 本研究: human-modulated rolloutsからfine-grained速度適応を学習。アーキテクチャ変更不要

2.3 System-Level Execution and Control

  • CHOMP, STOMP, TrajOpt, MPC: 軌道最適化
  • 本研究: temporal alignment, trajectory shaping, closed-loop controlを統合し高速実行

3 Calibration and Identification of the System

3.1 Delays in the System

  • VLA訓練では理想環境(即時観測・即時行動)を仮定するが、実世界には複数の時間遅延:
    • t_camera: 実際の露出からタイムスタンプ取得までの遅延
    • t_proprio: 関節位置読み取りの遅延
    • t_readout: タイムスタンプ後の画像受信遅延
    • t_motion: ロボットダイナミクスによる遅延(PD制御のラグ、最も大きい)
  • 合計遅延: t_motion + t_proprio + t_readout

3.2 Calibration and Compensation

  • t_readout: システムとカメラのタイムスタンプ比較で計測
  • t_camera: LED + 高速カメラで計測
  • t_motion, t_proprio: ロボットを正弦波パターンで動かし、120fpsカメラで記録。位相推定でサブフレーム精度(5ms精度)を実現

DOS W1システム (RealSense D435 + Airbot Play) の計測値

パラメータ
t_camera33ms
t_readout55ms
t_proprio50ms
t_motion150ms
  • 画像・関節の補償: t_camera + t_readoutを統合し、関節位置の履歴バッファから対応する値を取得してVLA入力を時間整合
  • t_motion補償: 制御ループの結果のためahead-of-timeは不適。軌道後処理で目標位置をプリアンプリファイ(実際のロボットがモデル出力に追従するよう、コマンドを誇張)

4 Post-processing the VLA Trajectory

  • VLAの出力軌道をモデルに対して透過的に後処理
  • 平滑性が高速実行の最重要要素: ジッタや振動は視覚入力を揺らし、VLAモデルと関節ハードウェアを不安定化
  • クライアント-サーバー分離を前提:
    • サーバー: VLAモデル → Speed Adaptation → Temporal Optimization → クライアントへ送信
    • クライアント: Spatial Optimization → 制御・状態推定

4.1 Speed Adaptation and Temporal Optimization

  • Speed Adaptation Model: チャンクのステップごとの速度(スケーリングファクタ)を決定
  • Temporal Optimization: 軌道の時間的プロファイルを最適化(パスの形状は変更しない)
    • 二次計画問題として定式化:
      • 目的関数: 参照逆時間間隔への追従 + 加速度ペナルティ
      • 制約: Δt の上下限、最大速度制約
    • OSQPで解法
    • パスを変えずに加速度ピークを分散

4.2 Spatial Optimization and Tracking

  • 局所的に軌道の位置を修正:ハードウェア制約の保証 + ロボット追従制御
  • ロボット遅延ダイナミクスを線形回帰モデルで表現: q_{k+1} = a·q_k + (1-a)·y_k, a = exp(-h/τ)
  • MPC (acados, SQP-RTIモード) で実装
    • 目的関数: 実現軌道追従 + コマンド追従 + pre-amplification制限 + 1次差分・2次差分正則化
    • ハードウェア限界を超える積極的なコマンドを防止しつつ、高速追従を実現

5 Learning When and How to Speedup

  • 実行軌道の多くは高い加速ファクタ (3x-4x) を許容するが、クリティカルなステージではスローダウンが必要
  • 例: shirt-foldingタスクで3x速度時、袖折り(精度・速度の要求が高い)に失敗が集中

5.1 Failure-rate Prediction Model

  • Q関数学習: 観測と加速ファクタ候補から失敗確率を予測
  • 問題点: ロールアウトデータが不可避的に希少、分布バイアス、閾値チューニングが困難
  • → 実用上の課題が多く、代替手法を提案

5.2 Human-in-the-loop Speed Modulation Data Collection

  • 人間オペレータにVLA実行中の「スロットル」入力を付与
  • 快適なら加速、失敗予測時は減速
  • 反復的データ収集:
    • 1日目: スロットルデータ収集 → 回帰モデル訓練 → 翌日デプロイ
    • 翌日: 高いベース速度で更なる最適化
    • 失敗エピソード周辺のラベルは破棄
  • 利点:
    • 回帰問題のため過学習しにくい
    • データ累積的に利用可能
    • 安全のため絶対加速上限 (3x-4x) を設定
  • 将来: RL置換の可能性(現状はサンプル効率で人間に劣る)

6 Experiments

  • 3つのタスクで検証:

Shirt-folding

  • シャツを2回半分に折り、テーブル右上に配置
  • 事前にシワを伸ばし、袖を折る工程あり
  • VLA学習の古典的ベンチマーク

Place-into-fixture

  • PCBをシールドに入れ、シールドをフィクスチャに配置(5つ)
  • 極めて高精度が必要: スルーホールとピンの精密位置合わせ、フィクスチャのマージン0.2mm
  • モデルが接触・精度要求部分でスローダウンを学習

Pick-and-latch

  • 4つのワークピースをフィクスチャから取り出し、新フィクスチャに配置・ラッチ

  • 現在のVLAの限界に近い精度要求

  • 結果: 全3タスクでほぼ人間の操作速度を達成

7 Upperbound Analysis

  • ロボットVLA実行速度の上限分析フレームワーク(rooflineモデルに類似):
    • Motion bounded: 加速度・速度・ジャークがハードウェア限界に到達。これ以上の高速化は不可能
    • Control bounded: ハードウェアは高速化可能だが制御レイテンシにより成功率維持不可。アクションチャンクの有効長が正でなければならない
  • 軌道をmotion boundedまたはcontrol boundedに分類できれば、速度適応が最適に近い
  • 速度・加速度・ジャークプロファイル分析: 後処理後は加速度・ジャークが均等分散し、多くの区間でmotion-bound(現段階での最適性のシグナル)

8 Conclusion

  • VLAポリシーのロボット上での実行速度をほぼ人間レベルに高速化
  • システムレベルとデータ駆動アプローチの組み合わせ
  • 現実的なロボットタスクで印象的な結果を達成