Diffusion Model / Score-based 生成モデル

データに徐々にノイズを加えて最終的にガウスノイズと見分けがつかなくする拡散過程と、その逆をたどる逆拡散過程を学習し、ノイズから復元を繰り返してデータを生成するモデル。逆拡散過程が画像生成に対応する。

DDPM の定式化

マルコフ性を持つ過程として書ける:

生成には $p (x_{0})$ の最尤推定が必要だが潜在 $x_{1 \dots T}$ の周辺化が計算できないため、variational-autoencoder と同じく変分下限を使い、各時刻の拡散過程事後分布と逆拡散過程の KL ダイバージェンスを下げる問題に分割する。

スコアベース生成の系統。最初は分散の大きいノイズで近似した分布からサンプリングし、ノイズを少しずつ抑えることでガウス分布から複雑なデータ分布へ遷移させる。DDPM とは数学的に等価で、より効率の良いアルゴリズムとされる。

Latent Diffusion / Stable Diffusion: 潜在空間で拡散を行い計算を削減。U-Net をデノイザに使う。
条件付け: Classifier-Free Guidance（CFG scale, Negative Prompt）。
flow-matching: 拡散を一般化し、ODE のベクトル場を直接回帰する手法。サンプリングが安定・高速で、vla のアクション生成（π₀ 系）の標準になった。
Diffusion Policy: 視覚表現を条件に拡散でロボットの行動軌道をデノイズする模倣学習。ManiFeel/ForceMimic など接触リッチ操作でも採用。