VAE / Autoencoder（変分オートエンコーダ）

Autoencoder

入力を Encoder で低次元の潜在変数 $z$ に圧縮し、Decoder で復元するニューラルネット。再構成誤差 $L = \sum_{n} ∥ x_{n} - \overset{x}{^} (x_{n}) ∥^{2}$ を逆誤差伝播で最小化し、入力をできるだけ忠実に再構成するよう学習する。多様体仮説（高次元データは低次元構造に集中している）に基づき、潜在空間に特徴を凝縮する。

VAE（Variational Autoencoder）

Autoencoder の潜在変数を確率分布 $z \sim N (0, 1)$ に従うと仮定した生成モデル。Encoder $q_{ϕ} (z ∣ X)$ は $z$ そのものではなく分布のパラメータ $μ (X), σ (X)$ を出力し、Decoder $p_{θ} (X ∣ z)$ が復元する。学習時に正規分布乱数を加えることでラベルごとにクラスタが形成され、潜在空間上を連続的に動かすと出力も連続変化する。

変分下限（ELBO）

データ分布 $p (X)$ の対数尤度最大化は積分が困難なため、イェンセンの不等式で変分下限 $L$ を最大化する:

L = - D_{K L} [q (z ∣ X) ∥ p (z)] + E_{q (z ∣ X)} [lo g p (X ∣ z)]

第1項は $z$ の分布を $N (0, I)$ に近づける正則化項、第2項は再構成誤差（多変量ベルヌーイ仮定でクロスエントロピー）。対数尤度と変分下限の差は $D_{K L} [q (z ∣ X) ∥ p (z ∣ X)]$ 。変分下限の最適化で推論するのが probabilistic-programming とも繋がる変分推論。

Reparameterization Trick

期待値（積分）をサンプリングで近似すると逆誤差伝播できなくなるため、 $z = μ + ϵ σ, ϵ \sim N (0, I)$ と書き換えてノイズ源を外に出し、勾配を通す。

VAE は Stable Diffusion の潜在表現エンコードにも使われ、その数理は diffusion-model（DDPM）の変分下限導出と地続き。

Quartz 5

Explorer

VAE / Autoencoder（変分オートエンコーダ）

VAE / Autoencoder（変分オートエンコーダ）

Autoencoder

VAE（Variational Autoencoder）

変分下限（ELBO）

Reparameterization Trick

関連

Graph View

Table of Contents

Backlinks