読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

比例ハザードモデル入門(パラメトリック)

生存時間分析 確率過程 Graphviz

はじめに

生存時間分析で行われるノンパラメトリックな推定がよくわからないので, いったんパラメトリックから入って Cox 回帰とかの勉強をしたらいいかなと思った.

生存時間分析の分野では, 密度関数ではなくハザード関数を推定することがよくある.

ハザード関数 h(t) は,

\displaystyle h(t) = \lim _{\Delta t \to 0} \frac{\Pr (t \leq T < t + \Delta t|T \geq t)}{\Delta t}

と定義される.

この式は「時刻 t の直後にイベントが発生する確率」と解釈できる.

T が連続型の確率変数のときは,

\displaystyle h(t) = \frac{f(t)}{1-F(t)}

となる.

これを定義と扱う場合も多い.

 \displaystyle h(t) = \lim _{\Delta t \to 0} \frac{\Pr (t \leq T < t + \Delta t|T \geq t)}{\Delta t}\\
\displaystyle= \lim _{\Delta t \to 0}\frac{1}{\Delta t} \frac{\Pr (t \leq T < t + \Delta t \cap T \geq t)}{\Pr(T > t)} \\
\displaystyle= \lim _{\Delta t \to 0} \frac{\Pr (t \leq T < t + \Delta)}{\Delta t}\big/\Pr(T>t) \\
\displaystyle= \frac{f(t)}{1-F(t)}

準備(notation)

\displaystyle S(t) = 1- F(t) は生存関数,

\displaystyle h(t) = \frac{f(x)}{S(x)} はハザード関数,

\displaystyle H(t) = \int^{ t }_{0} h(u) \, du は累積ハザード関数と呼ぶ。

 T_i は生存時間に対応する確率変数.

 D_i は右打ち切りの有無に対応する確率変数.打ち切りなしのとき 1, 打ち切りありのとき 0 の値を取る.

標本データが
 (T_i, D_i) (i=1, 2, ..., n)
のペアから構成されるとき,その尤度は密度関数 f, 生存時間 S を用いて

\displaystyle L= \prod ^{n}_{i=1} \{f(t_i)\}^{d_i}\{S(t_i)\}^{1-d_i}

と表される.

これをハザード関数 h,累積ハザード関数 H を用いて,

\displaystyle L= \prod ^{n}_{i=1} \{h(t_i)\}^{d_i}\exp\{-H(t_i)\}

と書くこともできる.

ハザード関数を用いて密度関数は,

\displaystyle f(t) = h_0(t) \exp (\mathbf{\beta x}_i - H(t) e^{\beta 'x})

と表すことができる.

ここで h_0 はベースラインハザード(baseline hazard; 基準線ハザード)と呼ばれる.

\displaystyle H(t)=\int ^t _{- \infty} h_0(u) \, du .

生存関数は,

\displaystyle S(t)=\exp(-H(t) e^{\beta 'x})

と表すことができる.

なぜならば,

\displaystyle h(t)=\frac{f(t)}{S(t)} = - \frac{d}{dt} \log S(t)

より, 両辺積分して

\displaystyle \exp\left(- \int^{t}_{0}h(u) \, du \right)= S(t)

だから.

x を説明変数とした比例ハザード(対数線形)モデルは,一般に,

\displaystyle h(t_i)= h_0(t_i) \exp(\mathbf{\beta 'x}_i)

と表される.

指数分布(Exp)

指数分布(exponential distiribution; Exp)はもっともシンプルな寿命分布だろう.

累積ハザード関数は,
 H(t)=t

ベースラインハザードは,
 H'(t)=h_0(t)=1

密度関数は,

\displaystyle  f(t)= \exp(\mathbf{\beta' x} -te^{\beta' x})

である.

この式を,

\displaystyle  f(t)= \exp(\mathbf{\beta' x})\exp( -te^{\beta' x})

と書き直してみると,指数分布のみなれた記法,

\displaystyle  f(t)= b \exp(-bt)

と一致する.

ワイブル分布(Weibull)

ワイブル分布は指数分布を柔らかくしたもの, という印象.

累積ハザード関数は,
\displaystyle H(t)=t^\alpha

ベースラインハザードは,
\displaystyle H'(t)=h_0(t)=\alpha t ^{\alpha-1}

密度関数は,
\displaystyle f(t)=\alpha t ^{\alpha -1} \exp(\mathbf{\beta' x} -t^\alpha e^{\beta' x})

この式を
\displaystyle f(t)=\alpha e^{\mathbf{\beta' x}} t^{\alpha-1} \exp(-e^{\beta' x}t^\alpha)

と書き直してみると,これがみなれた記法,

 f(t)= \alpha \beta t^{\beta -1} \exp(- \alpha t^\beta)

と一致することがわかる.

極値分布(EVD

ワイブル分布の変数を \exp(t) と変換することで, (ガンベル型?)極値分布(extreme value distribution; EVD)が得られる.

累積ハザード関数は,
\displaystyle H(t)=\exp(t^\alpha)

ベースラインハザードは,
\displaystyle H'(t)=h_0(t)=\exp(\alpha t)

密度関数は,
\displaystyle f(t)=\alpha e^{\alpha t}  \exp( \mathbf{\beta' x} - \exp( \alpha t  + \beta' x) )

一般化極値分布(GEVD)

一般化極値分布(Generalize Extreme Value Distribution; GEVD)の累積ハザード関数は,
\displaystyle H(t)=\exp(\alpha t ^\delta)

ベースラインハザードは,
\displaystyle H'(t)=h_0(t)= \alpha \delta t^{\delta -1} H(t)

密度関数は,

\displaystyle f(t)=\alpha \delta t^{\delta -1}  \exp(e^{\alpha t ^\delta})

である.

 \delta =1 のとき, これは極値分布になる.

 \delta \to 0 のとき, これはワイブル分布になる.

f:id:abrahamcow:20141227085111p:plain

// 上図のコード(dot 言語)
digraph dist{
  graph [rankdir = LR, label = "分布間の関係"];
  "EVD" -> "Weibull" [label = "変数変換"];
  "GEVD" -> "Weibull" [label = "極限"];
  "GEVD" -> "EVD" [label = "特殊な場合"];
  "Weibull" -> "Exp"[label = "特殊な場合"];
 }

確率過程の観点から

生存時間の分布を扱うときはハザード関数が重要になる.

このことは寿命分布を「イベントが一度生起したら二度と起こらない点過程(point process)」とみなすとわかりやすい.

時刻 t での強度(intensity; 事象の起こりやすさ)を g(t) とする.

イベント  X(t),  T_1 < t < T_2 が時刻  t_1, \ldots, t_k で生起する密度は,

\displaystyle \prod^{k}_{j=1} g(t_j) \exp \left\{- \int ^{T_2}_{T_1} g(t) \,dt \right\} \tag{1}

と表される.

  •  g(t_j) はイベントが起こったところ,
  •  \exp \left\{- \int ^{T_2}_{T_1} g(t) \,dt \right\} はイベントが起こらなかったところ

である.

ハザード関数が  h(x) = f(x)/(1-F(x)) のとき, x で「死亡」した場合, イベントが区間 ( 0, x ) では生起しないで, ちょうど x のときに生起した, とみなせる.

(1) 式を適用すると, 密度は,

\displaystyle \frac{f(x)}{1-F(x)} \exp \left\{- \int ^{x}_{0} \frac{f(t)}{1-F(t)} \,dt \right\} \\
\displaystyle =\frac{f(x)}{1-F(x)} \exp  \left\{ \int ^{x}_{0} \frac{d}{dt} \log(1-F(t)) \, dt \right\}\\
\displaystyle =f(x)

になる.

参考文献

生存時間解析

生存時間解析

入門・演習 数理統計

入門・演習 数理統計

(参考文献, 他にもあるはずだけど思い出せない.)