廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

Stan

詩のリフレインを可視化するベイズモデル (rstan)

中原中也のサーカスという詩をたぶんあなたはすでにご存知だろう。 幾時代かがありまして 茶色い戦争ありました幾時代かがありまして 冬は疾風(しっぷう)吹きました幾時代かがありまして 今夜此処(ここ)での一(ひ)と殷盛(さか)り 今夜此処での一と殷…

ディリクレ・多項分布回帰による margarine データの分析

分析対象 R の bayesm パッケージに入っている margarine データを分析します。このデータは家計ごとのマーガリンの購買が記録されている。たとえば購買されたマーガリンのブランド(1〜10)ごとに家庭の収入の分布をみるとこんな感じ。マーガリンのブランド…

ガンマ・ポアソン分布で推定しても負の二項分布で推定しても結果は一緒になるか

問:ガンマ・ポアソン分布で推定しても負の二項分布で推定しても結果は一緒になるか 答:なりそう 以下のデータ生成過程を考える。 z を積分消去すると、y は負の二項分布に従うことがわかる(証明略)。また、z の事後分布は以下のガンマ分布になる。 (証…

(googleAnalyticsR) コホート比較で再訪率の高い流入経路を探す

Google アナリティクスのコホートレポートの分析例です。高度な使用例 | アナリティクス Reporting API v4 | Google Developers営利目的のサイトだったら、キャンペーン(acquisitionCampaignというディメンション)ごとに再訪率の高さをみるとよさそう。ぼ…

StanとRで最低賃金と失業率の関係を調べる

下記の内容について「先行研究も調べずにがさつな分析で結論を出すのはよくない」(引用は不正確)というようなコメントを頂戴し、そりゃそうだとおもったので最低賃金と雇用の関係について勉強になりそうな文献へのリンクをいくつか貼ります。 http://david…

対応のある標本の分析をわざわざStanでやる

sleep データ モデルに個体差のパラメータを入れるかどうかのポイントは、「個体差や場所差が識別できてしまうようなデータのとりかたをしているか」だという話があります(久保 (2012)、p.161)。データ解析のための統計モデリング入門――一般化線形モデル・…

[rstan]ランダム効果入り G-O モデルによるツイートのインプレッションの分析

Twitter Analytics からツイートのインプレッション(何回表示されたか)などの情報を見ることができます。ぼくのツイッターアカウントの最近のデータを以下に置いておきます。tweet_activity_metrics_abiko_ushi_20180116_20180213_en.csv · GitHubいま、ツ…

Albert (1992): 正規累積項目反応曲線のギブスサンプリングによる推定. Rcpp による実装例.

Albert, J. H. (1992). Bayesian estimation of normal ogive item response curves using Gibbs sampling. Journal of educational statistics, 17(3), 251-269. https://www.jstor.org/stable/1165149 のアルゴリズムがおもしろかったので紹介します. モデ…

【rstan】グループ化時間&右切断ワイブル分布+ポアソンノイズで需要予測モデル

なにかの製品の月ごとなり週ごとなりの出荷数のデータがあるとします。 このデータを「製品が発売されてから消費者が購入に至るまでの待ち時間」を計測したものだと捉えなおすと、ワイブル分布を仮定して分析するのもさほど不自然ではないように思えます。そ…

rstan で生存関数の推定(離散時間, 2群)

いろいろやり方はあると思うけど, かんたんに書けるので, とりあえずこれでいいかなと思った.生存関数を で表し, 離散時間でハザードを考えると,, , ,...生存関数を考えると,, , ,...各時間区切りごとのイベント数を , リスクセット(その時間の直前までイベ…

[rstan]混合ロジスティック回帰を用いた検索クエリのクラスタリング

Search Console のデータを使います。まずは searchConsoleR でデータを読み込み、プロットします。対象とするランディングページは http://abrahamcow.hatenablog.com/entry/2015/01/17/064522 とします。 library(dplyr) library(cowplot) library(searchC…

[RStan]多項ロジスティックモデルで μ's とAqours の人気の差を調べる

背景の整理 μ's とAqours の人気の差(驚異のアニヲタ社会復帰への道) のデータを使わせていただきます。あるアニメショップでラブライブのキャラの人気投票をしたとき、μ's のメンバーが、Aqours のメンバーより全体的に上位だったそうです。そこで 2 グル…

[RStan]差分方程式で呂布カルマのフリースタイルダンジョン出場を振り返る

モチベーション [dlm]状態空間モデルでトレンドと広告の効果を分離して推定する - 廿TT で、「広告の効果測定において、残存効果、タイムラグをモデルに組み込みたい」というコメントを頂戴したので、それっぽいモデルを考えてみた。提案モデルはちょっと…

[RStan]同時確率に基づく検索キーワードのクラスタリング(改訂版)

[RStan]同時確率に基づく検索キーワードのクラスタリング - 廿TT の改訂版です。上エントリはそもそもやろうとしてることに無理があったと思い、ある程度クラスタを人力で与えることにしました。 モデル SEO 的には本当は語順にも意味があるんだろうけれど…

[RStan]同時確率に基づく検索キーワードのクラスタリング(失敗版)

このモデルは推定するたびに結果が変わることが判明しました。申しわけありません。以下の記述はなかったことにしてください。改訂版を書きました → [RStan]同時確率に基づく検索キーワードのクラスタリング 2 - 廿TT はじめに 検索キーワードのグルーピン…

[RStan]項目反応理論の応用でフリースタイルダンジョン登場ラッパーの強さをランキングしてみた

分析対象 フリースタイルダンジョンはフリースタイル(即興)のラップバトルで、チャレンジャーがモンスターと呼ばれる強豪ラッパーを勝ち抜き、賞金獲得することを目指すテレビ番組です。データは、 フリースタイルダンジョン 結果 勝敗 全試合 - 戯言 から…

Albert (2008) 打者の調子の波のモデル化(後編)

Albert (2008) 打者の調子の波のモデル化(前編) - 廿TT の続きです。以降の分析の目的は、よく言われる野球選手の「調子の波」を選手間で比較可能な指標にするにはどうするか、ということです。分析対象のデータはカルロス・ギーエンという選手の2005年の…

状態空間非定常ポアソン(NHPP using Stan)

ポアソン過程は再発事象のモデルとしてよく使われる。ポアソン過程ではイベントが観測された時刻を () とすると、イベントの生起間隔 は独立にパラメータ λ の指数分布に従う。ポアソン過程の拡張としてパラメータλ が時間に依存して変化する非定常ポアソン…

rstan で混合二項分布のパラメータ推定

ordered 型は、「小さい順」という制約です。StanとRでベイズ統計モデリングで解説されている「ラベルスイッチング」を回避するためにこれを使ってます。StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発…

Missing Not At Random(MNAR):R と Stan で欠測が欠測データに依存する場合のパラメータ推定

測定機器かなにかの都合上、観察対象の値が小さくなると欠損が出やすくなる状況を考えます。R で以下のようにしてシミュレーションデータを生成しました。 set.seed(1) N <-200 X<-rnorm(N,2) X2 <-ifelse(runif(N)

Stan の integrate_ode_rk45 を使ってバスモデルのパラメータ推定

以下の微分方程式で記述されるモデルのパラメータを推定します。ほんとうは閉じた形で解が求まるのですが今回は Stan の integrate_ode_rk45 を使って数値的に解を求めます。カラーテレビの普及率のデータ(第1章第2節3 1 情報通信機器の世帯普及率 : 平成1…

階層ベイズでもサンプルサイズを増やしたらベイズ信頼区間の幅は細くなってくれるのか

系列長 の時系列データがあるとして, これに以下のようなモデルを当てはめます. 階層事前分布として , には平均 10 の指数分布, には幅の広い一様分布を仮定します. いま の95%ベイズ信頼区間を求めたいとします.ベイズ信頼区間の幅はサンプルサイズ(系列長…

打者の調子の波のモデル化 4

データ MLB - スポーツナビ にプロ野球選手ボガーツの打席結果が掲載されています。例として下表に一部を抜き出します。 日付 打数 安打 6/1 5 1 6/2 5 1 6/3 5 2 6/4 3 0 6/5 4 3 6/6 4 0 このデータをとってくる R のコードは以下のようになります。 # 後…

ゼロ切断ポアソン分布によるセッション数のモデル化とデータ拡大による潜在利用者数の推定

序 ゼロ切断ポアソン分布によるセッション数のモデル - 廿TT ではウェブサイトのセッション数をゼロ切断ポアソン分布としてモデル化し、ウェブサイトにアクセスしなかった人も含めた潜在的な利用者数 N を推定しようとした。しかし日によって N の推定値が大…

阿部誠(2008)RF 指標から生存確率を求める(rstan 版)

モデルと尤度関数 阿部(2004)RF指標から生存確率を求める - 廿TT の続きです。阿部(2004)によれば, 以下の 2 つの仮定を置くことで, RF(リセンシーとフリクエンシー)指標のみから, 顧客の生存期間を求めることができたのでした.フリクエンシーを x, リ…

Stan コードをベクトル化したら速くなるか:AR(1) モデルを例に

ちょっと速くなる。こういうモデルのパラメータを推定しました。 は平均 0、分散 の正規分布、 の事前分布は一様分布です。ベクトル化前のコードはこちら。 // AR1_1.stan data { int<lower=1> T; real y[T]; } parameters { real beta0; real beta1; real<lower=0> sigma; } m</lower=0></lower=1>…

[rstan]横浜駅SFの移入と離脱のモデル

横浜駅SF (カドカワBOOKS)作者: 柞刈湯葉,田中達之出版社/メーカー: KADOKAWA発売日: 2016/12/24メディア: 単行本この商品を含むブログ (4件) を見る 経緯 この減衰曲線はどういう関数で説明するのが適切か考えている(指数関数ではない)https://t.co/PYdRO…

状態空間モデルで自然検索トラフィックの成長を予測する

場面設定 コンテンツを増やせばそれだけ自然検索にヒットするページが増え、ウェブサイトのトラフィックは増加します。向こう一年間これだけ記事を書くぞ、というのが決まっていたとして、その計画から自然検索経由の訪問(セッション)数を予測できるでしょ…

RStanで離散パラメータを含むモデルの推定(disaster model)

前置き Stan のマニュアル11章の例題です。 Stan は離散パラメータをサポートしていないので、離散パラメータを含むモデルの推定では周辺化して離散パラメータを消去してやる必要があります。その練習です。解析対称はイギリスの炭鉱事故の発生件数のデータ…

RStan でベイズ逆問題もどき

, という系列を考える。A は定数。(この系列になんらかの解釈があればおもしろかったんだけど思いつかなかった。)いま、観測されるのは のみである。 が既知ならば A を推定するのはかんたん。A が既知ならば を推定するのはかんたん。しかし、いま観測さ…