廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

ベイズ推測とベイズの定理の関係

今日の川柳

(追記)以下の話は事前分布が「真の」事前分布と一致しているときにしか成り立たないですね。これを書いたときの私は寝ぼけていたようです。すみません。この記事は見なかったことにしてください。

ベイズ推測とベイズの定理の関係がよくわからなくなってきた。

尤度と事前分布が正しい場合にはベイズの定理はもちろん正しいんだけど、ふつう統計的推測をする場合には正しい観測モデル(尤度)も正しい事前分布も未知で、分析者が設定する。

それなのになぜベイズの定理が統計的推測を基礎づけるのだろう。

実は、ベイズ推測を基礎づけるものはベイズの定理ではないと思ったほうがいいんじゃないだろうか。

以降、4つの分布を考える

  1. データ x の分布 f(x|\theta)
  2. パラメータの事前分布 p(\theta)
  3. 事後分布 p(\theta|x) = f(x|\theta)p(\theta)/f(x) =  f(x|\theta)p(\theta)/\left( \int f(x|\theta) p(\theta) \, d\theta\right)
  4. 予測分布 p(y|x)

将来の観測値 y がデータ x と同じ分布に従うとする。

y \sim f(y|\theta)

ここでは、統計的推測とはデータ x をもとに f(y|\theta) はおよそ p(y|x) だろうという推測することだと考える。

以降、予測分布をどのように構成したらよいか模索する。

予測分布の良さを対数尤度の大きさではかるとすると、予測分布の平均的な良さは、

L= \int \int \int f(x|\theta) f(y|\theta) p(\theta) \log p(y|x) \, d\theta dy dx

である。x、y、\theta に関して平均している。

この式を少し変形すると、

L= \int \int \int \left(f(y|\theta) \frac{f(x|\theta) p(\theta)}{f(x)}\right) d\theta \log p(y|x) \, dy f(x) dx

となる。

 \int \left(f(y|\theta) \frac{f(x|\theta) p(\theta)}{f(x)}\right) d\theta もまた、y に関する確率分布になっているので、これを q(y) とおく。

 \int q(y) \log p(y|x) \, dy に注目し、少し変形する。

 \int q(y) \log p(y|x) \, dy = \int q(y) \log p(y|x) -\log q(y)+\log q(y) \, dy\\
= \int q(y)\log q(y) \,dy + \int q(y) \log \frac{p(y|x)}{q(y)} \, dy \\
= \int q(y)\log q(y) \,dy - \int q(y) \log \frac{q(y)}{p(y|x)}\, dy

いま、p(y|x) をどのように構成したら L が大きなるかを調べるのが目的だった。

上の式の1項目は p(y|x) に依存しない。

2項目は q(y)p(y|x) に関するカルバック・ライブラ情報量である。

そのため  q(y)p(y|x) が一致するとき L が最大になる。

だから、予測分布 p(y|x)

p(y|x) =\int \left(f(y|\theta) \frac{f(x|\theta) p(\theta)}{f(x)}\right) d\theta\\
= \int f(y|\theta) p(\theta|x)  d\theta

とすれば最も良い。

事後分布  p(\theta|x) は最良の予測分布を作るための分布である。

ベイズの定理によって正しく確率を計算することと、ベイズ推測は別物である。

(以上は現時点での私の考えです。二〜三日したら変わるかもしれません。)

参考にしたもの:
エントロピーとモデルの尤度(<講座>物理学周辺の確率統計)