ベイズ統計と確率分布

確率分布のパラメータや潜在変数を推定する枠組みと、基礎となる分布・検定。測度論を土台に、機械学習へ繋がる。

確率分布の基礎

  • ベルヌーイ分布 (成功確率 )。これを 回繰り返した成功回数が二項分布
  • 正規分布:再生性(和も正規)を持つ。AUC との関係 など。
  • iid(独立同一分布):全試行が独立で同一分布に従う。
  • 期待値:確率変数が独立でなくても線形性(和の期待値=期待値の和)が成立。

確率は可測空間上の確率測度であり、尤度 も測度として解釈できる。

推定の階層

  • 点推定(最尤推定): 尤度 を最大化する 。多峰性に対応できない。
  • MAP推定: 事後確率 を最大化。変分ベイズで近似分布をデルタ分布にしたものに相当。
  • ベイズ推論: 点でなく事後分布そのものを推論する。

変分ベイズ

事後分布 が計算困難なとき、別の分布 で近似する手法(変分法に由来)。更新式

は、事後分布との KLダイバージェンス の最小化として導かれる。自由度が高すぎるので平均場近似を用いる。EM アルゴリズムが点推定、変分ベイズがベイズ推定を担う。VAE や混合ガウス分布に応用。MCMC(マルコフ連鎖モンテカルロ)も事後分布サンプリングの主力。

KL ダイバージェンス

2 分布の離れ具合 。対称性を欠くので距離関数ではない(対称化が JS ダイバージェンス)。情報理論の相互情報量とも関係する。

検定と因果

  • t検定(スチューデント):2 群の平均差の検定。p 値偏重への批判もある。
  • 因果推論:予測でなく因果の推定が目的。説明変数を入れすぎると多重共線性で係数が信頼できなくなる(機械学習では許容されても因果推論では許されない)。

関連: information-theory / axiomatic-set-theory / _moc-math