VAE

生成モデル
- SDでは潜在表現から画像にする際に用いられている
Auto Encoder の潜在変数を $z \sim N (0, 1)$ と仮定している
例: in(784次元) -> z(20次元) -> out(784次元). 低次元の潜在空間に特徴を表現できている
学習時に正規分布に従う乱数を加える
- → 各ラベル毎にクラスタが出来る
潜在空間上で値を連続的に動かすと変化に対応する出力を出すことが出来る
- $t \cdot z_{0} + (1 - t) \cdot z_{7}, 0 \leq t \leq 1$ ( $z_{i}$ はラベル $i$ の中心)
多様体仮説
- 画像等の高次元データは空間の中で固まって存在しているという仮説
生成モデルの目的はデータの分布である $p (X)$ を推定すること
- $X$ は画像等の高次元データ(MNISTだと784次元)
- それを低次元の潜在変数 $z$ と対応付けるのが学習
- VAEは $z$ が正規分布として分布するように学習させる
Encoder: $q_{ϕ} (z ∣ X)$ データ $X$ が得られた状態でその $X$ を生み出した潜在変数 $z$ を推論する確率モデル(モデルのパラメータが $ϕ$ )
- $z$ ではなく $z$ が従う正規分布 $z \sim N (μ (X), σ (X))$ のパラメータ $μ, σ$ を生成しているらしい
Decoder: $p_{θ} (X ∣ z)$
学習の仕方 = $ϕ, θ$ の求め方
- $p (X)$ の尤度を最大にするNNのパラメータ $ϕ, θ$ を最尤法で求める
  - 対数尤度 $lo g p (X)$ の最大化は積分が難しいので変分下限 $L (X, z)$ を最大化することを考える

lo g p (X) = lo g \int p (X, z) d z = lo g \int q (z ∣ X) \frac{p ( X , z )}{q ( z ∣ X )} \geq \int q (z ∣ X) lo g \frac{p ( X , z )}{q ( z ∣ X )} = L (X, z)

イェンセンの不等式 $lo g E [X] \geq E [lo g X]$
対数尤度と変分下限の差は $D_{K L} [q (z ∣ X) ∣ p (z ∣ X)]$ となる
さらに式変形すると
- ベイズの定理: $p (z ∣ X) = \frac{p ( X ∣ z ) p ( z )}{p ( X )}$

L = - D_{K L} [q (z ∣ X) ∥ p (z)] + E_{q (z ∣ X)} [lo g p (X ∣ z)]

となる

1項目は正則化項で $z$ の分布が $p (z) = N (0, I)$ になるように制約になっている
- 正規分布に従う時のKLダイバージェンスは $\frac{1}{2} \sum_{j = 1}^{J} (1 + lo g ((σ_{j})^{2}) - (μ_{j})^{2} - (σ_{j})^{2}$
- 多変量正規分布の場合のKullback Leibler Divergenceの導出機械学習 - Qiita
2項目 $p_{θ} (X ∣ z)$ は多変量ベルヌーイ分布に従うと仮定してVAEの出力と入力画像でクロスエントロピーを取る(reconstruction error)
- $lo g p (X ∣ z) = \sum_{i = 1}^{D} x_{i} lo g y_{i} + (1 - x_{i}) lo g (1 - y_{i})$
対数尤度の最大化は変分下限の最大化と差の最小化を同時にしなければいけないように感じるが変分法を利用することで両者は同じことをあわらすことがわかるらしい
- 変分下限の最適化をすることで推論するアルゴリズムは変分推論法と呼ばれている

Reparameterization Trick

変分下限の各項は期待値=積分なので MCMC のようなサンプリング法を用いる必要があるがそうすると逆誤差伝搬できなくなる
それをReparameterization Trickで回避する
- ある関数 $f (z ∣ ϕ)$ を確率 $q (z ∣ x, ϕ)$ のもとで期待値計算したい
- $ϵ \sim p (ϵ)$ として $q (\cdot)$ が $z = g (ϵ, x; ϕ), q (z ∣ x, ϕ) d z = p (ϵ) d ϵ$ と書けると
- $q (z ∣ x)$ による期待値計算は $\int q (z ∣ x, ϕ) f (z, ϕ) d z = \int p (ϵ) f (g (ϵ, x; ϕ)) d ϵ$ 置き換えられる
- 例
  - VAEでは $W$ の分布 $q (W ∣ θ) = \prod_{i, j, l} N (w_{i, j}^{(l)} ∣ m_{i, j}^{(l)}, v_{i, j}^{(l)})$ を $g (ϵ ∣ m, v) = m + ϵ v, ϵ \sim N (0, I)$ で表せる
  - これは逆誤差伝搬適用可能

DDPM

Diffusion Model の元ネタは非平衡統計力学らしい(何も知らない)
NCSN と数学的に等価でより効率が良いアルゴリズムらしい
拡散モデルは入力に対し徐々にノイズが強くなるような過程を行う. ので最終的に入力データはガウスノイズと見分けがつかなくなる
以下の過程として書ける(マルコフ性=次状態が現在状態のみに依存)がある
- 拡散過程 $q (x_{0 \dots T}) = q (x_{0}) \prod_{t = 1}^{T} q (x_{t} ∣ x_{t - 1})$
- 逆拡散過程 $p (x_{0 \dots T}) = p (x_{T}) \prod_{t = 1}^{T} p (x_{t - 1} ∣ x_{t})$
逆拡散過程が画像生成に対応する
- 生成には $p (x_{0})$ を最大化する最尤推定が必要
- 潜在変数 $x_{1 \dots T}$ を全て周辺化 $p (x_{0}) = \int p (x_{0 \dots T}) d x_{1 \dots T}$ することで求められる
- が, $x_{1 \dots T}$ は未知なので計算できない
- 逆拡散過程は拡散過程の時間反転, $x_{0}$ は既知なので書き換え

p (x_{0}) = \int q (x_{1... T} ∣ x_{0}) p (x_{T}) t = 1 \prod T \frac{p ( x _{t - 1} ∣ x _{t} )}{q ( x _{t} ∣ x _{t - 1} )} d x_{1... T}

最尤推定をする. logの中に積分が出てくるので変分下限を使って変形する
- 変分下限 $K = - D_{K L} [\cdot] + E [\cdot] - \sum_{t = 2}^{T} E_{q (x_{0}, x_{t})} [D_{K L} [q (x_{t - 1} ∣ x_{t}, x_{0}) ∣ p (x_{t - 1} ∣ x_{t})]]$
- 各時刻 $t = 2, 3 \dots T$ での拡散過程の事後確率と逆拡散過程のKLダイバージェンスを下げる問題
  - 各時刻について1つ前の状態を推定する形に分割出来ている

tags	ml
aliases	Variational Autoencoder

Quartz 5

Explorer

VAE

VAE

Reparameterization Trick

DDPM

Latent Diffusion Model

Conditioning CFG(Classifier-Free Guidance)

GLIDE

参考文献

Graph View

Table of Contents

Backlinks