廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

カルバック・ライブラ情報量の直感的な意味

今日の川柳

状態  i=1,\ldots,M がそれぞれ q_i の確率で生起する分布と、状態  i=1,\ldots,M がそれぞれ p_i の確率で生起する分布を考えます。

この2つの分布間のカルバック・ライブラ情報量は、

\sum_{i=1}^{M} p_i \log {\frac {p_i}{q_i}}

と定義されます。

この量は「母集団分布が q_i のとき経験分布がほぼ p_i となる確率の対数のサンプルサイズ分の 1 の符号反転」と解釈できます。

この一文の意味がわかるようになることが今日の日記の目標です。

さて、状態  i=1,\ldots,M がそれぞれ q_i の確率で生起する分布を考えます。

この分布からのサンプルをN個観測して、状態  i=1,\ldots,M が生起した回数をそれぞれ N_1,\ldots,N_M とします。

 N=\sum_{i=1}^{M}N_i です。

N_1,\ldots,N_M のような観測が得られる確率は

 W=\frac{N!}{N_1! \cdots N_M!}q^{N_1}_1 \cdots q^{N_M}_M

です。(要は多項分布です。)

ここでスターリングの公式

\log N! \approx N\log N -N

を使って  \log W を近似すると

 \log W \approx (N \log N) - \sum_{i=1}^{M}( N_i \log N_i -N_i) + \sum_i=1^{M} \log q_i \\
= N \log N - \sum_{i=1}^M N_i (\log N_i - q_i) \\
= - \sum_{i=1}^M N_i (\log N_i - q_i -\log N ) \\
= - \sum_{i=1}^M N_i (\log \frac{N_i}{N} - q_i) \\
= - N \sum_{i=1}^M \frac{N_i}{N} (\log \frac{N_i}{N} - q_i)

と整理できます。

 p_i = N_i/N とおくと

 \log W \approx -N\sum_{i=1}^{M}p_i \log\frac{p_i}{q_i}

という結果を得ます。

あらためて考えると  p_i = N_i/N は経験的に推定された確率と解釈できます。

q_i は真の確率であったことを思い出すと、W は真の分布が q_i のときに p_i のように振る舞う確率と解釈できます。

\log W を N で割って、符号を反転させると、\sum_{i=1}^{M} p_i \log {\frac {p_i}{q_i}} となります。

この量は「母集団分布が q_i のとき経験分布がほぼ p_i となる確率の対数のサンプルサイズ分の 1 の符号反転」と解釈できます。

参考にしたもの:
エントロピーとモデルの尤度(<講座>物理学周辺の確率統計)