読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

ポアソンの少数の法則は「起きるのが稀な事象の発生件数はポアソン分布に従う」という意味ではない

R 確率分布

確率が低い, 珍しい, まれってどのくらい?

ポアソン分布は起きる確率の低い事象に対する分布」みたいな記述がインターネット上にはちらほらある. 興味のある方は「ポアソン 少数の法則」とかでググってみて欲しい.

で, ぼくは一時期「確率が低いってどういうことだろう」「どのくらいだったらポアソン分布になるんだろう」って悩んだ.

答えをいうと, 「ポアソン分布は起きる確率の低い事象に対する分布」みたいな記述は気にしなくていい.

これはおそらく「ポアソンの少数の法則」ということばから生まれた誤解だ.

でもこれは一般的には起こる確率の低い事象に対する分布なので、注意したいところです。(ほら、なかなか馬に蹴られて死なないでしょ?)別名「少数の法則」とも呼ばれています(発生件数が多い場合は正規分布に近くなります)。

ポアソン分布 - NtRand

ポアソンの少数の法則

ポアソンの少数の法則とは, 単に二項分布のある種の極限がポアソン分布になる, ということを述べたものだ.

試行回数 n, 成功確率 λ/n の二項分布を考える.

このとき, n を無限大にした極限はポアソン分布になる.

このことを「ポアソンの少数の法則」と呼ぶ.

証明

試行回数 n, 成功確率 λ/n の二項分布の確率関数は,

 \displaystyle \left( \begin{array}{c} n \\ k \\ \end{array} \right)\left( \frac{\lambda}{n} \right)^k \left(1- \frac{\lambda}{n} \right)^{1-k}

だった. 二項係数を展開して,

 \displaystyle \lim_{n \to \infty} \left( \begin{array}{c} n \\ k \\ \end{array} \right)\left( \frac{\lambda}{n} \right)^k \left(1- \frac{\lambda}{n} \right)^{n-k} \\
\displaystyle =\lim _{n \to \infty} \frac{n (n-1) \cdots (n-k+1)}{k!} \left( \frac{\lambda}{n} \right)^k \left(1- \frac{\lambda}{n} \right)^{n-k} \\
\displaystyle = \frac{\lambda ^k}{k!} \cdot \frac{n}{n} \cdot \frac{n-1}{n} \cdots \frac{n-k+1}{n} \left(1- \frac{\lambda}{n} \right)^{n} \left(1- \frac{\lambda}{n} \right)^{-k}

もちろん
\displaystyle \lim_{n \to \infty} \left(1- \frac{\lambda}{n} \right)^{n} = e^{\lambda}
なので,

\displaystyle \lim_{n \to \infty} \left( \begin{array}{c} n \\ k \\ \end{array} \right)\left( \frac{\lambda}{n} \right)^k \left(1- \frac{\lambda}{n} \right)^{n-k} = \frac{\lambda^k}{k!}e^{-\lambda}

これはポアソン分布の確率関数.

証明終わり.

f:id:abrahamcow:20140919035015p:plain

イメージとしては, 線分を n 個の細かい区間に分けて, 区間ごとに試行を行う.

全体としての成功の回数は λ で固定.

そして分割の n をどんどん増やして, 区間を細かくしていく.

このような場合は, ポアソン分布になる.

「起こる確率の低い」というような記述は λ/n が小さい, ということを言っているんだろう.

だから間違いとはいえないけど, うーん誤解を招くんじゃないかな.

ポアソン分布のパラメータ λ は intensity(強度;インテンシティ)と呼ばれる. 強度は事象の起こりやすやと解釈できる. λ が大きいポアソン分布もポアソン分布だ. 1時間あたり1万回事象が発生するポアソン分布も, 1億回起こるポアソン分布もあり得る.

これを「起こる確率の低い事象に対する分布」と言われると混乱すると思う.

中心極限定理

ついでに最初に引用した文章の「発生件数が多い場合は正規分布に近くなります」というのについても注意しておこう.

中心極限定理」というのは, ランダム標本の和の分布が, 正規分布で近似できるということだ.

R でシミュレーションしてみよう.

一様乱数は1万個もってきても一様分布.

X <- runif(10000) #一様乱数1万個
hist(X) #ヒストグラム

f:id:abrahamcow:20140919051806p:plain

一方で10個の一様乱数の和を千個もってくると, 正規分布っぽくなる.

X2 <- sapply(1:1000,function(i) sum(runif(10)))
#10個の一様乱数の和を千個
hist(X2)
#ヒストグラム

f:id:abrahamcow:20140919052055p:plain

大数の法則中心極限定理

上の記事を書いた人は, おそらく少数の法則と大数の法則を対応させておぼえて, さらに大数の法則中心極限定理を混同しちゃったんじゃないか.

ぼくも最初は混乱した.

大数の法則確率収束(convergence in probability)の一つ. 大数の法則をおおざっぱに表現すると, 標本の大きさが大きければ大きいほど, 標本平均が母集団分布の平均に近い確率が高いということだ.

中心極限定理法則収束(convergence in law または convergence in distribution)の一つ. 法則収束というのは, ある分布から得られた確率変数の極限が, 別のある分布に従う確率変数になることを指す.

ポアソンの少数の法則もパラメータ (n, p) の二項分布が, パラメータλ = npポアソン分布で近似できるという意味で, 法則収束の一つと言える.

でも中心極限定理は, (平均と分散が有限の値になる分布なら)どんな分布からとってきた標本でも, その標本平均の分布は次第に正規分布に近づく, というものなので, ポアソンの少数の法則よりもっと一般的な定理だ.

最初はややこしいけど, 慣れるとそうでもない.

確率分布の関係

二項分布とポアソン分布の関係を述べたついでに, 二項分布とポアソン分布の使いわけについてメモしておく.

二項分布とポアソン分布はどちらも離散型の分布だけど,

  • 二項分布の連続時間版がポアソン分布
  • 幾何分布の連続時間版が指数分布

と思っておくといいんじゃないだろうか.

二項分布に従って発生するような事象が起きるまでの待ち時間の分布が幾何分布, ポアソン分布に従って発生するような事象が起きるまでの待ち時間の分布が指数分布だと思って大過ないだろう, たぶん.

参考文献

  • 確率分布の世界 - NtRand
    • さんざんやり玉に上げたけど, 全体としては, わかりやすいしおもしろいページだと思う. エクセルでこんなにできるんだね.
  • ポアソン分布
    • 奥村先生のサイトはほとんど至るところ勉強になる.

ぼく自身は, ここに書いたようなことは野田・宮岡『入門・演習 数理統計』で勉強した.

入門・演習 数理統計

入門・演習 数理統計


より一般向けの本としては, 『弱点克服 大学生の確率・統計』をおすすめする.

弱点克服大学生の確率・統計

弱点克服大学生の確率・統計


こういうのじゃなくて, もっと数理統計学の名著みたいなものが読みたいという方もいるだろうけど, ぼくはそういうの紹介できない, 読んでて挫折しちゃうので.