廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

離散時間データからの指数分布のパラメータの最尤推定

尤度関数と最尤推定

イベント発生が区間 (L_i,R_i] に起こったことがわかっており、イベントが発生した時間そのものはわからない状況を考える。

このようなデータを区間打ち切り(interval censored)データと呼ぶ。

尤度は、

 \displaystyle \prod_{i=1}^n \left[ \{1-F(L_i)\} - \{ 1-F(R_i) \} \right]

である。

以降、指数分布を仮定して考える。

区間の幅が固定されており R_i = L_i + a のとき、 尤度関数は、

 \displaystyle L(\lambda) = \prod_{i=1}^n \left[ \exp(-\lambda L_i) - \exp(-\lambda (L_i + a)) \right]\\
= \displaystyle \prod_{i=1}^n \exp(-\lambda L_i)  \left[ 1 - \exp(-\lambda a) \right]

である。

対数をとって、

 \displaystyle \log L(\lambda) = -\lambda \sum_{i=1}^n L_i - n \log(1- \exp(-\lambda a))  .

微分して、

 \displaystyle \frac{d \log L(\lambda)}{d \lambda} = -\sum_{i=1}^n L_i - n \frac{a \exp(-\lambda a)}{1- \exp(-\lambda a)}  .

0 と置いて解くと

 \displaystyle  -\sum_{i=1}^n L_i \{1- \exp(-\lambda a)\} - n a \exp(-\lambda a) = 0
 \displaystyle \exp(-\lambda a)\sum_{i=1}^n L_i - n a \exp(-\lambda a) =  \sum_{i=1}^n L_i
 \displaystyle \{ \sum_{i=1}^n L_i - n a \} \exp(-\lambda a) =  \sum_{i=1}^n L_i
 \displaystyle \exp(-\lambda a) =  \sum_{i=1}^n L_i/ \{ \sum_{i=1}^n L_i - n a \}
 \displaystyle -\lambda a = \log\left[ \sum_{i=1}^n L_i/ \{ \sum_{i=1}^n L_i - n a \} \right]
 \displaystyle \hat \lambda  = \frac{1}{a}\left(\log(\sum L_i +na)-\log(\sum L_i)\right).

シミュレーション

a=1, \lambda=0.5 とする。

サンプルサイズを n =10,20,30,\dots,100 と変化させてパラメータの推定値のばらつきを見る。

f:id:abrahamcow:20150927095950p:plain

#Rのコード
#exponential

ns <-seq(10,100,by=10)
est <- matrix(,1000,10)
for(j in 1:10){
  n <- ns[j]
  for(i in 1:1000){
    x <-rexp(n,0.5)
    x <-floor(x)
    est[i,j] <-log(sum(x)+n)-log(sum(x))
  }
}
colnames(est) <- ns
boxplot(est)

関連エントリ

abrahamcow.hatenablog.com