廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

不完全データ

スパークライン風のカプランマイヤープロット

層分けが多くなると凡例と見比べるのが大変なのでなんとかしたいと思った。普通にプロットする。はい。スパークライン風にプロットするとこんな感じかなあ。累積イベント発生率が25%に達する点、50%に達する点、75%に達する点に赤っぽい丸、最後のイベント発…

[googleAnalyticsR]再発事象のカプラン・マイヤープロット

survrec っていうパッケージもあるらしいけど慣れてないので survival を使います。どのチャネルが再来訪しやすいのか、何日くらいの間隔で何パーセントくらい戻ってくるのかがわかります。 library(googleAnalyticsR) library(tidyverse) library(survival)…

【rstan】グループ化時間&右切断ワイブル分布+ポアソンノイズで需要予測モデル

なにかの製品の月ごとなり週ごとなりの出荷数のデータがあるとします。 このデータを「製品が発売されてから消費者が購入に至るまでの待ち時間」を計測したものだと捉えなおすと、ワイブル分布を仮定して分析するのもさほど不自然ではないように思えます。そ…

rstan で生存関数の推定(離散時間, 2群)

いろいろやり方はあると思うけど, かんたんに書けるので, とりあえずこれでいいかなと思った.生存関数を で表し, 離散時間でハザードを考えると,, , ,...生存関数を考えると,, , ,...各時間区切りごとのイベント数を , リスクセット(その時間の直前までイベ…

SIR モデルと非定常ポアソン過程

疫学の SIR 動態モデルへのいろいろなあてはめ…MCMCとか粒子フィルターとか Approximate Bayesian Computation (ABC) とか教えてくれるコース https://t.co/vD5Fk9goGQ があるそうで…昔は最小二乗法でも使ってたのかな? https://t.co/tglcj91WtJ— 久保拓弥 …

非定常ポアソン過程でアフィリエイトのコンバージョンを予測(グループドデータ版)

abrahamcow.hatenablog.com の続きです。めったに起きないコンバージョンの成長の非定常ポアソン過程によるモデル - 廿TT では一日に複数のコンバージョンが発生しても、それは一回とカウントしていました。これはもったいない。こういうのはグループドデー…

EMアルゴリズムの練習:右打ち切りデータからの指数分布のパラメータ推定

アルゴリズム 独立に平均 の指数分布に従う大きさ の標本 があり, 内 は完全な観測が得られ, は右打ち切りされているとする. 完全な観測が得られたとして, このときの対数尤度は, である. ただし, は観測されない打ち切られた線分の長さを拡大して表したもの…

ゼロ切断ポアソン分布によるセッション数のモデル化とデータ拡大による潜在利用者数の推定

序 ゼロ切断ポアソン分布によるセッション数のモデル - 廿TT ではウェブサイトのセッション数をゼロ切断ポアソン分布としてモデル化し、ウェブサイトにアクセスしなかった人も含めた潜在的な利用者数 N を推定しようとした。しかし日によって N の推定値が大…

EM アルゴリズムによるゼロ切断ポアソン分布のパラメータ推定

最尤推定と条件付き最尤推定 ゼロ切断ポアソン分布のパラメータの最尤推定 - 廿TT の続きです。上記のエントリでは、0 でない観測の数 n を所与として、n 個の観測が得られるために必要な試行回数 N は観測されないとしていました。しかし現実的には n が固…

阿部誠(2008)RF 指標から生存確率を求める(rstan 版)

モデルと尤度関数 阿部(2004)RF指標から生存確率を求める - 廿TT の続きです。阿部(2004)によれば, 以下の 2 つの仮定を置くことで, RF(リセンシーとフリクエンシー)指標のみから, 顧客の生存期間を求めることができたのでした.フリクエンシーを x, リ…

ゼロ切断ポアソン分布によるセッション数のモデル

あるウェブサイトの利用者が全部で N 人いるとして、N 人がある一定時間内に 回そのウェブサイトを利用するとします。一定時間内に一回以上サイトを訪れた利用者の数を n とすると、 n に相当するのがユーザー数です。一定時間内にサイトを訪れるユーザーの…

ゼロ切断ポアソン分布のパラメータの最尤推定

確率質量関数 f をポアソン分布の確率質量関数とすると、ゼロ切断ポアソン分布(zero-truncated Poisson)の確率質量関数は、期待値は、Zero-truncated Poisson distribution - Wikipedia 最尤推定量 サンプルサイズを n とすると対数尤度関数は、これを最大…

左切断右打ち切りデータからの最尤推定

切断と打ち切り 観測対称がとる値がある範囲を超えたとき、まったく観測されない場合を切断(truncated)と呼ぶ。それに対して、観測されない対象の個数はわかっている場合を打ち切り(censored)と呼ぶ。観測範囲がある値以上に限定されている場合、左切断…

MASS::fitdistr で打ち切りデータからの最尤推定

R には fitdistr という最尤推定をしてくれる関数がありまして、自分で密度を定義してやれば打ち切りデータからでもパラメータを推定できる。 mydens <-function(x,shape,scale){ ifelse(d==1, pweibull(x,shape, scale,lower.tail = FALSE), dweibull(x,sha…

離散時間データからのワイブル分布のパラメータの最尤推定

尤度 イベント発生が区間 に起こったことがわかっており、イベントが発生した時間そのものはわからない状況を考える。このようなデータを区間打ち切り(interval censored)データと呼ぶ。尤度は、である。 シミュレーション R の survival パッケージでは T…

離散時間データからの指数分布のパラメータの最尤推定

尤度関数と最尤推定量 イベント発生が区間 に起こったことがわかっており、イベントが発生した時間そのものはわからない状況を考える。このようなデータを区間打ち切り(interval censored)データと呼ぶ。尤度は、である。以降、指数分布を仮定して考える。…

ワイブル分布のパラメータ推定(Stan vs survreg)

※初公開時は Stan のコードが間違ってたせいでパラメータがうまく求まっていなかった。(修正:7/28)ワイブル分布のパラメータ推定は意外とむずかしくって、打ち切りが多いときとかパラメータの数が多いときはシェイプパラメータが変なところに飛んでっちゃ…

再生過程における余命の分布(均衡分布)

状況 例えば電球が切れたら交換し切れたら交換し……というようなプロセスを考えます。電球それぞれの寿命 は独立に同分布 F(x) に従うとします。 は非負の連続型確率変数です。電球の寿命切れ、というイベントが繰り返し生起するため、このような過程を再生過…

[論文メモ]『窓打ち切り再発データのためのパラメトリック推定』Zhu et al. (2014)

底本 Yada ZHU, Emmanuel YASHCHIN, and J. R. M. HOSKING, (2014) Parametric Estimation for Window Censored Recurrence Data,Technometrics, pp.55-64. http://www.tandfonline.com/doi/abs/10.1080/00401706.2013.804442?journalCode=utch20#.VIpeo6SsU…

比例ハザードモデル入門(パラメトリック)

はじめに 生存時間分析で行われるノンパラメトリックな推定がよくわからないので, いったんパラメトリックから入って Cox 回帰とかの勉強をしたらいいかなと思った.生存時間分析の分野では, 密度関数ではなくハザード関数を推定することがよくある.ハザード…

Huzurbazar (2003) 打ち切りデータのヒストグラム(R による拡張版)

アルゴリズム(algorithm) 打ち切りの種類 以前のこれ, R による打ち切りデータのヒストグラム - 廿TT は右打ち切りのみを想定していたが, 拡張した → plot a censored data histgram生存時間分析の主な打ち切りには, 右打ち切り 左打ち切り 2重打ち切り(…

Web 解析データの平均滞在時間、本当は平均になっていないのでは?

本エントリの要約 Web 解析データの平均滞在時間は、「滞在時間÷訪問数」で計算される。でもこれは統計的な意味での「平均」(母平均の推定量)にはなっていない(気がする)。なぜなら Web 解析データの滞在時間は、「区間打ち切り」されたデータだからだ。…

指数分布を仮定した右打ち切りデータの平均の区間推定(ってこれでいいのかな?)

指数分布の平均の信頼区間 指数分布 - Wikipedia信頼水準を()とした指数分布の平均の信頼区間は で求められる。このことは、 がふつうの標本平均の場合は、指数分布からのランダム標本の和がガンマ分布に従うことを使って証明できる。 http://www.lokad.jp…

生存時間のデータを ggplot2 のエノキタケみたいな棒グラフで示したい

質問編 生存時間のデータはおおむねこのような形で与えられます。 > library(MASS) > head(gehan) pair time cens treat 1 1 1 1 control 2 1 10 1 6-MP 3 2 22 1 control 4 2 7 1 6-MP 5 3 3 1 control 6 3 32 0 6-MP time が生存時間の観測値、cens の 0, …

Laslett (1982) の尤度関数とワイブル分布を仮定した最尤推定のシミュレーション

Laslett (1982) の尤度関数 Laslett, G. M., (1982) The Survival Curve Under Monotone Density Constraints With Application to two-Dimensional Line Segment Processes. Biometrika, 69: pp. 153-160 JSTOR: An Error Occurred Setting Your User Cooki…

区間打ち切りデータについてのターンブルのアルゴリズム

生存時間解析作者: J.P.クライン,M.L.メシュベルガー,打波守出版社/メーカー: 丸善出版発売日: 2012/02/29メディア: 単行本 クリック: 1回この商品を含むブログを見る この本の pp.147-150 の内容をなるべく愚直に書いてみた。 ところどころよくわかってない…

2重打ち切りデータについてのターンブルのアルゴリズム

以前のこれです。関数化した。2重打ち切りは区間打ち切りとはまた別。解説はいずれ。 surv.doub <- function(time, exact, right, left){ n0 <- length(time) num <- which(left>0) lnum <- length(num) Y = numeric() Y2 =Y S0 = numeric(n0+1) S0[1] = 1 …

R によるターンブルのアルゴリズム

勉強のためターンブル(Turnbull)のアルゴリズムを愚直に書いてみる。生存時間解析作者: J.P.クライン,M.L.メシュベルガー,打波守出版社/メーカー: 丸善出版発売日: 2012/02/29メディア: 単行本 クリック: 2回この商品を含むブログを見るクライン&メシュベ…

R による打ち切りデータのヒストグラム

こちらを参照 打ち切りデータのヒストグラム from Ko Abe 以下に本文中のコードを #あまり信用しないでください library(survival) cdh <- function(DT,DF, digits =0, table=FALSE){ #Scott's choice bw <- zapsmall((3.5*sd(DT))/length(DT)^(1/3), digits…