廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

R

ガンマ・ポアソンの状態空間モデル

PMMH(パーティクルマージナルメトロポリス・ヘイスティングス; Rcpp で PMMH(パーティクルマージナルメトロポリス・ヘイスティングス) - 廿TT)でもう少し遊ぶ。パーティクルフィルタは正規分布以外の分布でも使えるということなので、未観測の状態変数が…

Rcpp で PMMH(パーティクルマージナルメトロポリス・ヘイスティングス)

R によるすごくかんたんなパーティクルフィルタの実装例 - 廿TT では分散パラメータを既知としていますが、分散パラメータも推定したい。パーティクルフィルタの重みから周辺尤度を出してランダム・ウォーク・メトロポリス・ヘイスティングスでサンプリング…

[googleAnalyticsR]調整済みオッズ比の四半期比較プロット

とりあえず図とコードだけ貼ります。縦の棒はオッズ比の95%信頼区間です。 library(googleAnalyticsR) library(tidyverse) library(lubridate) ##### ga_auth() account_list <- ga_account_list() ga_id <- account_list$viewId[3] gadata <- google_analyt…

精神疾患の軽症化

精神疾患の軽症化が進んでいる。統合失調症の新規発症が激減し、入院を要するレベルの気分障害がほとんどいなくなり、病棟経営の支えである慢性の統合失調症患者は急速に高齢化が進んでいる。地域移行を進めるまでもなく精神科病床数は今後10年で確実に激減…

StanとRで最低賃金と失業率の関係を調べる

下記の内容について「先行研究も調べずにがさつな分析で結論を出すのはよくない」(引用は不正確)というようなコメントを頂戴し、そりゃそうだとおもったので最低賃金と雇用の関係について勉強になりそうな文献へのリンクをいくつか貼ります。 http://david…

対応のある標本の分析をわざわざStanでやる

sleep データ モデルに個体差のパラメータを入れるかどうかのポイントは、「個体差や場所差が識別できてしまうようなデータのとりかたをしているか」だという話があります(久保 (2012)、p.161)。データ解析のための統計モデリング入門――一般化線形モデル・…

混合ポアソン分布による逐次更新型異常検知をRで

詳しい説明は『異常検知と変化検知』5章を見てください。異常検知と変化検知 (機械学習プロフェッショナルシリーズ)作者: 井手剛,杉山将出版社/メーカー: 講談社発売日: 2015/08/08メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る『異常…

時系列データで相関を出してはいけないのなら空間データでも相関を出してはいけないのではないか

以前に エクセルで無相関検定:失業率と野菜摂取量の相関 - 廿TT というエントリを書いた。めちゃくちゃ批判されるかと思ったけどそうでもなかった。じ、時系列データに対して単純な相関を算出している。。。 https://t.co/3yUB5ZEhRo— 統計たん@Rアイドル (…

フィッシャーの検定がいいか、カイ二乗検定がいいか

俺「有意差ありで有用としていますが,どんな統計解析を使われたのでしょうか?」演者「χ2乗検定です」俺「そのn数だとFisher検定すべきですし,今計算したらp値が0.05より大きいです」演「え・・・??」俺「有意差ないので有用とはいえませんね?」演「」#…

[Rcpp]PELT アルゴリズムで変化点の検出

PELT アルゴリズム は R の changepoint パッケージですでに実装されているけど、勉強のためあらためて書いてみる。観測値を とします。複数の変化点があり得る場合、なんらかの情報量規準を用いて変化点検知をするにはを最小化する変化点 を見つける必要が…

色付きミニ棒グラフ(searchConsoleR)

色付き棒グラフ行列(ggplot2) - 廿TT で書いた theme_spark でもうちょっとあそんでみる。 theme_spark <- function (base_size = 11, base_family = "") { theme_grey(base_size = base_size, base_family = base_family) %+replace% theme(panel.backgro…

色付き棒グラフ行列(ggplot2)

『StanとRでベイズ統計モデリング』12章のデータを使いますStanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (9件) を見るGitHub - MatsuuraKentaro…

[rstan]ランダム効果入り G-O モデルによるツイートのインプレッションの分析

Twitter Analytics からツイートのインプレッション(何回表示されたか)などの情報を見ることができます。ぼくのツイッターアカウントの最近のデータを以下に置いておきます。tweet_activity_metrics_abiko_ushi_20180116_20180213_en.csv · GitHubいま、ツ…

Albert (1992): 正規累積項目反応曲線のギブスサンプリングによる推定. Rcpp による実装例.

Albert, J. H. (1992). Bayesian estimation of normal ogive item response curves using Gibbs sampling. Journal of educational statistics, 17(3), 251-269. https://www.jstor.org/stable/1165149 のアルゴリズムがおもしろかったので紹介します. モデ…

[R+Google アナリティクス]リセンシーどこで切るチャート

アクセス解析の分野ではユーザーの離脱率や維持率を把握したいというニーズがあります。しかし、離脱するユーザーは単にサイトへの訪問を止めるだけで、わざわざ離脱を申告することはめったにありません。このような場合、例えば 「3ヶ月訪問がなければ離脱…

Rによる打ち切りデータのヒストグラム (ggplot2)

追記:一応パッケージ化しました。 abrahamcow.hatenablog.com 生存関数のプロットは便利だけど密度関数のプロットと比べると分布の形状を把握しにくい。そこで打ち切りデータのヒストグラムというのが提案されている(Huzurbazar, A. V. (2005). A Censored…

Rによる打ち切りデータの箱ひげ図

右打ち切りのあるデータを視覚化するのにはカプラン・マイヤープロットが便利です。しかし層の数が多くなると判例と見比べるのが大変になる。そこである程度情報を落としてプロットしてもいいかなと思い、打ち切りデータの箱ひげ図を提案にします。make_q_df…

R: CARBayes (version 5.0) をためす

R

R の CARBayes パッケージをためした例は R: CARBayesをためす:Taglibro de H:So-netブログ にある.でもバージョンが変わったりしてるので改めてメモしておく.生態学データ解析 - 本/データ解析のための統計モデリング入門 の11章のデータを使う.これは架…

[googleAnalyticsR]非負値行列因子分解を用いたユーザーと閲覧ページのクラスタリング(とレコメンド)

非負値行列因子分解(非負値行列因子分解をRで(ベイズ推論による機械学習入門) - 廿TT)でもう少し遊んでみる.メインの関数は Non-negative matrix factorization · GitHub に上げました.非負値行列因子分解は情報推薦にも応用できる(Rによるレコメンドの…

非負値行列因子分解をRで(ベイズ推論による機械学習入門)

『ベイズ推論による機械学習入門』で解説されていた非負値行列因子分解 (Non-negative matrix factorization, NMF or NNMF) を R でやってみます.機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版…

状態空間モデル(ローカルレベルモデル)で変化点の検出

ローカルレベルモデル ローカルレベルモデルは以下の組で表されるモデルです.観測モデル: システムモデル: は観測値, は未観測の「状態」です. は観測ノイズ, はシステムノイズと呼ばれます. という式は「状態は変化しているが, 一歩前の値と近い値を取る…

R: apply系の関数の代わりにpurrrを使ってみる

R

apply 行列の行ごとのトリム平均を求める.applyで書くとこう. rowmean1 <-apply(x, 1, mean, trim = 0.2) purrrのmap関数を使うとこう. rowmean2 <-map(array_branch(x,1),mean,trim=0.2) ベンチマークしてみるとpurrrのほうがほんのすこしはやいです. libra…

カルバック・ライブラー密度比推定法をRで(異常検知と変化検知)

異常検知と変化検知 (機械学習プロフェッショナルシリーズ)作者: 井手剛,杉山将出版社/メーカー: 講談社発売日: 2015/12/04メディア: Kindle版この商品を含むブログを見る『異常検知と変化検知』の12章で説明されているカルバック・ライブラー密度比推定法を…

ポアソン混合モデルの変分ベイズによる推定をRで(ベイズ推論による機械学習入門)

モデル パラメータ のポアソン分布の確率関数を と書くことにする. の確率関数を, とする.ここで はカテゴリカル分布にしたがう変数とする. は観測されない潜在変数である. の事前分布にパラメータ , のガンマ分布を仮定する.カテゴリカル分布のパラメータ …

スパークライン風のカプランマイヤープロット

層分けが多くなると凡例と見比べるのが大変なのでなんとかしたいと思った。普通にプロットする。はい。スパークライン風にプロットするとこんな感じかなあ。累積イベント発生率が25%に達する点、50%に達する点、75%に達する点に赤っぽい丸、最後のイベント発…

[googleAnalyticsR]再発事象のカプラン・マイヤープロット

survrec っていうパッケージもあるらしいけど慣れてないので survival を使います。どのチャネルが再来訪しやすいのか、何日くらいの間隔で何パーセントくらい戻ってくるのかがわかります。 library(googleAnalyticsR) library(tidyverse) library(survival)…

【rstan】グループ化時間&右切断ワイブル分布+ポアソンノイズで需要予測モデル

なにかの製品の月ごとなり週ごとなりの出荷数のデータがあるとします。 このデータを「製品が発売されてから消費者が購入に至るまでの待ち時間」を計測したものだと捉えなおすと、ワイブル分布を仮定して分析するのもさほど不自然ではないように思えます。そ…

rstan で生存関数の推定(離散時間, 2群)

いろいろやり方はあると思うけど, かんたんに書けるので, とりあえずこれでいいかなと思った.生存関数を で表し, 離散時間でハザードを考えると,, , ,...生存関数を考えると,, , ,...各時間区切りごとのイベント数を , リスクセット(その時間の直前までイベ…

AICと一個抜き交差検証法と汎化損失のシミュレーション

R

AICは汎化損失を近似するもので漸近的には一個抜き交差検証法の結果と一致するという話を聞いてやってみました。 汎化損失 分布の「近さ」を測る尺度として代表的なものが次に定義されるカルバック・ライブラ情報量です。これを変形するととなります。 を真…

dlm による LWR モデルのパラメータ推定(渋滞の予測)

シンプルな LWR モデルの近似解 - 廿TT のモデルでもう少し遊んでみる。観測点が 6 個あって、それぞれが時間ごとにトラフィックの量を計測していると考える。上記で離散化した、 が状態方程式である。 が一定という仮定はちょっと不自然な気がするが、下手…