VAE / Autoencoder(変分オートエンコーダ)

Autoencoder

入力を Encoder で低次元の潜在変数 に圧縮し、Decoder で復元するニューラルネット。再構成誤差 を逆誤差伝播で最小化し、入力をできるだけ忠実に再構成するよう学習する。多様体仮説(高次元データは低次元構造に集中している)に基づき、潜在空間に特徴を凝縮する。

VAE(Variational Autoencoder)

Autoencoder の潜在変数を確率分布 に従うと仮定した生成モデル。Encoder そのものではなく分布のパラメータ を出力し、Decoder が復元する。学習時に正規分布乱数を加えることでラベルごとにクラスタが形成され、潜在空間上を連続的に動かすと出力も連続変化する。

変分下限(ELBO)

データ分布 の対数尤度最大化は積分が困難なため、イェンセンの不等式で変分下限 を最大化する:

第1項は の分布を に近づける正則化項、第2項は再構成誤差(多変量ベルヌーイ仮定でクロスエントロピー)。対数尤度と変分下限の差は 。変分下限の最適化で推論するのが probabilistic-programming とも繋がる変分推論

Reparameterization Trick

期待値(積分)をサンプリングで近似すると逆誤差伝播できなくなるため、 と書き換えてノイズ源を外に出し、勾配を通す。

VAE は Stable Diffusion の潜在表現エンコードにも使われ、その数理は diffusion-model(DDPM)の変分下限導出と地続き。

関連