Flow Matching(フローマッチング)

単純な事前分布(標準ガウス)から複雑な目標分布へサンプルを輸送する常微分方程式(ODE)のベクトル場を学習する生成モデリング手法。拡散モデル(diffusion-model)を一般化し、シミュレーション不要・固定の条件付き確率経路のベクトル場を回帰するだけで連続正規化フローを学習できる、シンプルかつ安定した枠組み。

定式化

ノイズ分布から目標分布への変換を記述するベクトル場 を学習する。学習は条件付き Flow Matching ロスで行う:

L_τ(θ) = E ||v_θ(A^τ, o) - u(A^τ|A)||²

線形ガウス(最適輸送)確率パス を用いると、目標ベクトル場は単純に となり学習目標が極めてシンプルになる。推論時はガウスノイズから出発し、学習済みベクトル場で ODE をフォワードオイラー積分(典型的に 10 ステップ前後)して最終サンプルを得る。拡散のスコア関数学習に比べ数値的に安定で、少ステップサンプリングが可能。

VLA 制御における役割

ロボットのアクションは高次元かつマルチモーダル(1つの指示に複数の正解)であり、Flow Matching の安定したマルチモーダル分布表現がアクションチャンク生成に適する。pi0 が VLM バックボーン + Action Expert(別重みセット、Transfusion 流の拡散スタイルロスを個別シーケンス要素に適用)で連続アクションを生成して以来、vla の事実上の標準デコーダとなった。

  • π₀ / π0.5 / π0.6: Conditional Flow Matching で H=50 のアクションチャンクを最大 50Hz 制御。π0.5 はプリトレーニングで離散 FAST トークン、ポストトレーニングで Flow Matching を併用。π0.6 は推論ステップ数を削減しリアルタイム制御の遅延を最小化。
  • smolvla: Action Expert を Flow Matching で学習、Beta 分布で τ をサンプリング。
  • DiG-Flow: 観測特徴とアクション埋め込みの「分布の不一致」をスライス・ワッサーシュタイン距離で測り、ショートカット輸送(表面的相関への過学習)を幾何学的に検出・抑制。π0.5 ベースで LIBERO-Long を 92.4%→96.4% に改善するプラグイン。

関連