Faster-than-Demonstration 実行
Realtime-VLA V2 が扱う問題。模倣学習のデモは人間のテレオペで収集されるため速度が大きく落ちる。学習済みポリシーをデモより速く動かすと train-inference のダイナミクスにギャップが生じる。これを Fast / Smooth / Accurate を同時達成して解く。滑らかさが高速実行の前提(ジッタは視覚入力と関節ハードを不安定化させる)、正確さがタスク成功の前提。
V1(GPU 計算の高速化)と異なり、V2 は実ロボット上のシステム全体を扱う。
1. 系のキャリブレーションと遅延同定
理想は「画像を見た瞬間に次の行動を出す」だが、実機には複数の時間遅延がある:
t_camera(露光が timestamp より前)t_readout(受信遅延)t_proprio(関節読み取り遅延)t_motion(アームの追従遅延。軽量 QDD アームは PD/P 制御で剛性が低く、ゲインに反比例した遅れ)
DOS W1 系(RealSense D435 + Airbot Play)での実測例: t_readout 33 ms / t_camera 55 ms / t_proprio 50 ms / t_motion 150 ms。
計測法: システムクロック駆動の LED 列、ロボットを正弦波で振らせ高 fps カメラ(携帯の120fps)で位相推定しサブフレーム精度(5 ms 精度)。補償は、画像受信時刻から履歴バッファの関節位置を引いて入出力を整合。t_motion は定数遅延ではなく制御ループの結果なので、軌道後処理でプリアンプリファイ(目標位置を過剰に振り、コントローラ通過後に望む軌道に戻す)。
2. 軌道後処理(モデルに透過的)
RTC を壊さず再学習も不要にするため、モデルから見て「行動が完璧に実行された」ように軌道を後処理する。client-server 分離(GPU サーバ + ロボットクライアント):
- Speed Adaptation Model: ステップごとの速度スケール係数を決める。
- Temporal Optimization: 逆ステップ時間 Δt⁻¹ に対する二次計画 (QP) を osqp で解き、急加速ピークを平均速度を変えずチャンク全体へ分散。経路形状(waypoint 位置)は変えない。
- Spatial Optimization: クライアント側で位置を局所修正。ラグ動力学
q_{k+1}=a q_k+(1-a)y_k(a=exp(-h/τ))でモデル化し、acados MPC(SQP-RTI)で低遅延な内側ループ再計画。速度・曲率ペナルティでジッタ抑制。
3. 速度適応の学習:いつ・どれだけ速くするか
ほとんどの区間は 3x–4x まで高速化できるが、特定の精密区間(シャツ折りの袖折りなど)で減速が要る。失敗は速度を上げると激増するが特定ステージに集中する。
- Failure-rate Prediction Model: 速度係数候補ごとの失敗確率を Q 関数的に学習。rollout のみで学習できるが、データ希少で過学習しやすく閾値調整が難しい。
- Human-in-the-loop 速度変調(採用): オペレータの「スロットル」入力を回帰モデルに蒸留。二値の密度推定でなく回帰なので安定・累積学習可能。安全のため絶対速度上限(3x/4x)を設定。RL 代替は将来課題(人間ほどのサンプル効率がない)。
4. 上限解析(upperbound)
roofline に倣い、軌道を motion bounded(加速度・速度・ジャークがハード限界=最適)と control bounded(制御遅延で usable chunk が縮み成功率維持不能)の区間に分解。throughput をさらに上げるにはハード改善か、長い制御遅延に耐えるモデル改善のいずれか。shirt-folding 等3タスクで人間操作と同等速度を達成。
関連: full-streaming-inference / realtime-vla-v2 / control-theory-laplace