廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

AICとBICの違い:「ベイズ統計の理論と方法」第1章についての走り書き

今日の川柳

ベイズ統計の理論と方法

ベイズ統計の理論と方法

カルバック・ライブラ情報量は分布の「近さ」を測る指標.

ふたつの確率(密度)関数 q(x), p(x) に対して,

 D(q\|p)=\int q(x) \log \frac{q(x)}{p(x)} \, dx

をカルバック・ライブラ情報量という.

以下が成立(証明略):

  • 任意のq(x), p(x)に対して D(q\|p) \ge 0.
  • D(q\|p) = 0 となるのは q(x)=p(x) の場合に限る.

5 つの分布

以降, 5 つの分布が出て来る. 以下を区別することが必要.

  • q(x) : 真の分布(?)と呼ぶことにする. データが従う分布.
  • \phi(w) : 事前分布(prior distribution). データの情報を入れる前のパラメータの分布.
  • p(x|w) : 確率モデル(?)と呼ぶことにしよう. パラメータを与えたときのデータの分布.
  • p(w|x) : 事後分布(posterior distribution). データの情報が入ったパラメータの分布.
  • p^{\ast}(x) : 予測分布(predictive distribution). データの情報から「真の分布はおよそこれくらいだろう」と推測された分布.
  • わからなくて, 知りたいもの:真の分布 q(x).
  • 分析者が設定するもの:事前分布 \phi(w)と確率モデル p(x|w).
  • データから計算するもの:事後分布 p(w|x)と予測分布 p^{\ast}(x).

3 つの平均

さらに, 3種類の異なる平均が出て来る. 3つを区別することが必要.

事後分布による平均:
 E_w[f(w)]=\int f(w) p(w|\boldsymbol{x}) \, dw

真の分布による平均:
 E_X[f(x)]=\int f(x) q(x) \, dx

サンプルの現れ方に対する平均:
 E[f(X_1, X_2, \ldots, X_n)]=\int \int \cdots \int f(x_1, x_2, \ldots, x_n) \prod_{i=1}^{n}q(x_i) \, dx_i

事後分布

真の分布 q(x) に従う独立な確率変数 \boldsymbol{X}=(X_1,\ldots,X_n) の実現値 \boldsymbol{x}=(x_1,\ldots, x_n) が与えられたとき,

 p(x|w) = \frac{1}{Z_n}\phi(w) \prod_{i=1}^{n}p(x_i|w)
を事後分布と呼ぶ. ここで,

Z_n = \int \phi(w) \prod_{i=1}^{n}p(x_i|w) \,dw
を周辺尤度と呼ぶ.

対数周辺尤度

確率モデルと事前分布から推測された \boldsymbol{X} の確率分布は以下.

 p(\boldsymbol{x})=\int\phi(w) \prod_{i=1}^{n}p(x_i|w)\,dw.

同じものをわざわざ別の記号で書いている.
周辺尤度 Z_n は得られたデータ \boldsymbol{X} の関数と見ることもできる.
そのことを強調したいときは, p(\boldsymbol{x}) と書く.

そして以下を対数周辺尤度と呼ぶ.

 \log Z_n = \log\int \phi(w) \prod_{i=1}^{n}p(x_i|w) \,dw\\
=\log p(\boldsymbol{x}).

対数周辺尤度を変形すると,

\log p(\boldsymbol{x}) = \log Z_n =\sum_{i=1}^{n}\log q(x_i) -\log\left(\frac{\prod_{i=1}^{n}q(x_i)}{p(\boldsymbol{x})}\right).

サンプルの現れ方に対する平均を取り, 符号を反転させると,

 -E[\log Z_n] = -n \int q(x)\log q(x) dx +\int \prod_{i=1}^{n}q(x_i)\log\left(\frac{\prod_{i=1}^{n}q(x_i)}{p(\boldsymbol{x})}\right) d\boldsymbol{x}.

  • 第一項:真の分布によって定まる. 確率モデルと事前分布に依存しない. 確率モデルと事前分布の相対的な比較には影響しない.
  • 第二項:推測された分布  p(\boldsymbol{x}) と真の分布 \prod_{i=1}^{n}q(x_i) のカルバック・ライブラ情報量.

(W)BICの考え方

-E[\log Z_n] が小さいほど推測された分布が真の分布をよく近似していると考える.

真の分布は不明なので算出できるのは \log Z_n であり, E[\log Z_n] ではない.
それでも, 対数周辺尤度 \log Z_n をみることである程度推測の良さを調べることができそうである.

このような考えのもと, 提案されたのが (W)BIC である.

予測分布

ところで, 事後分布によって確率モデル p(x|w) を平均したもの,

 p^{\ast}(x) = \int p(x|w) p(w|\boldsymbol{x}) \, dw

を予測分布と呼ぶ.

ここでは, ベイズ推測とは「真の確率分布 q(x) はおおよそ p^{\ast}(x) であろう」と推測することを指す.

汎化損失

推測の良さを考えるための対数周辺尤度とは別の量がある.

真の分布 q(x) と, 予測分布 p^{\ast}(x) により定義される以下を汎化損失とよぶ.

 G_n = -\int q(x) \log p^{\ast}(x) \, dx\\
= -\int q(x) \log q(x)\, dx + \int q(x) \log \frac{ q(x)}{p^{\ast}(x)} \, dx.

  • 第一項:真の分布によって定まる. 確率モデルと事前分布に依存しない. 確率モデルと事前分布の相対的な比較には影響しない.
  • 第二項:予測分布  p^{\ast}(x) と真の分布  q(x) のカルバック・ライブラ情報量.

(W)AICの考え方

汎化損失 G_n が小さいほど予測分布が真の分布をよく近似していると考える.

真の分布は不明なので G_n を直接算出することはできない.

そこで, 真の分布による平均 \int q(x) \log p^{\ast}(x) \, dx を標本による平均に置き換え, 以下の経験損失,

 T_n = -\frac{1}{n}\sum_{i=1}^{n}  \log p^{\ast}(x),

を考える.

経験損失で汎化損失  G_n を近似する方法を考えたものが (W)AIC である.

ここまでのまとめと感想

  • 直感的に解釈すると, 真の分布と予測分布とのカルバック・ライブラ情報量はモデルによる予測の良さを表し, 真の分布と周辺分布とのカルバック・ライブラ情報量はモデルによる記述の良さを表す.
  • うまい予測ができていれば真の分布をうまく記述できており, 真の分布をうまく記述できていればうまい予測ができていることになりそうな気がする.
  • しかし実際にはサンプルサイズを大きくしても両者は一致しない.
  • 前者からは (W)AIC, 後者からは (W)BIC が提案された.

現実的にはAICが計算できるときにはBICもかんたんに計算できるので両方計算してみればよいと思う.