廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

R

フィッシャーの検定がいいか、カイ二乗検定がいいか

俺「有意差ありで有用としていますが,どんな統計解析を使われたのでしょうか?」演者「χ2乗検定です」俺「そのn数だとFisher検定すべきですし,今計算したらp値が0.05より大きいです」演「え・・・??」俺「有意差ないので有用とはいえませんね?」演「」#…

[Rcpp]PELT アルゴリズムで変化点の検出

PELT アルゴリズム は R の changepoint パッケージですでに実装されているけど、勉強のためあらためて書いてみる。観測値を とします。複数の変化点があり得る場合、なんらかの情報量規準を用いて変化点検知をするにはを最小化する変化点 を見つける必要が…

色付きミニ棒グラフ(searchConsoleR)

色付き棒グラフ行列(ggplot2) - 廿TT で書いた theme_spark でもうちょっとあそんでみる。 theme_spark <- function (base_size = 11, base_family = "") { theme_grey(base_size = base_size, base_family = base_family) %+replace% theme(panel.backgro…

色付き棒グラフ行列(ggplot2)

『StanとRでベイズ統計モデリング』12章のデータを使いますStanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (9件) を見るGitHub - MatsuuraKentaro…

[rstan]ランダム効果入り G-O モデルによるツイートのインプレッションの分析

Twitter Analytics からツイートのインプレッション(何回表示されたか)などの情報を見ることができます。ぼくのツイッターアカウントの最近のデータを以下に置いておきます。tweet_activity_metrics_abiko_ushi_20180116_20180213_en.csv · GitHubいま、ツ…

Albert (1992): 正規累積項目反応曲線のギブスサンプリングによる推定. Rcpp による実装例.

Albert, J. H. (1992). Bayesian estimation of normal ogive item response curves using Gibbs sampling. Journal of educational statistics, 17(3), 251-269. https://www.jstor.org/stable/1165149 のアルゴリズムがおもしろかったので紹介します. モデ…

[R+Google アナリティクス]リセンシーどこで切るチャート

アクセス解析の分野ではユーザーの離脱率や維持率を把握したいというニーズがあります。しかし、離脱するユーザーは単にサイトへの訪問を止めるだけで、わざわざ離脱を申告することはめったにありません。このような場合、例えば 「3ヶ月訪問がなければ離脱…

Rによる打ち切りデータのヒストグラム (ggplot2)

追記:一応パッケージ化しました。 abrahamcow.hatenablog.com 生存関数のプロットは便利だけど密度関数のプロットと比べると分布の形状を把握しにくい。そこで打ち切りデータのヒストグラムというのが提案されている(Huzurbazar, A. V. (2005). A Censored…

Rによる打ち切りデータの箱ひげ図

右打ち切りのあるデータを視覚化するのにはカプラン・マイヤープロットが便利です。しかし層の数が多くなると判例と見比べるのが大変になる。そこである程度情報を落としてプロットしてもいいかなと思い、打ち切りデータの箱ひげ図を提案にします。make_q_df…

R: CARBayes (version 5.0) をためす

R

R の CARBayes パッケージをためした例は R: CARBayesをためす:Taglibro de H:So-netブログ にある.でもバージョンが変わったりしてるので改めてメモしておく.生態学データ解析 - 本/データ解析のための統計モデリング入門 の11章のデータを使う.これは架…

[googleAnalyticsR]非負値行列因子分解を用いたユーザーと閲覧ページのクラスタリング(とレコメンド)

非負値行列因子分解(非負値行列因子分解をRで(ベイズ推論による機械学習入門) - 廿TT)でもう少し遊んでみる.メインの関数は Non-negative matrix factorization · GitHub に上げました.非負値行列因子分解は情報推薦にも応用できる(Rによるレコメンドの…

非負値行列因子分解をRで(ベイズ推論による機械学習入門)

『ベイズ推論による機械学習入門』で解説されていた非負値行列因子分解 (Non-negative matrix factorization, NMF or NNMF) を R でやってみます.機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版…

状態空間モデル(ローカルレベルモデル)で変化点の検出

ローカルレベルモデル ローカルレベルモデルは以下の組で表されるモデルです.観測モデル: システムモデル: は観測値, は未観測の「状態」です. は観測ノイズ, はシステムノイズと呼ばれます. という式は「状態は変化しているが, 一歩前の値と近い値を取る…

R: apply系の関数の代わりにpurrrを使ってみる

R

apply 行列の行ごとのトリム平均を求める.applyで書くとこう. rowmean1 <-apply(x, 1, mean, trim = 0.2) purrrのmap関数を使うとこう. rowmean2 <-map(array_branch(x,1),mean,trim=0.2) ベンチマークしてみるとpurrrのほうがほんのすこしはやいです. libra…

カルバック・ライブラー密度比推定法をRで(異常検知と変化検知)

異常検知と変化検知 (機械学習プロフェッショナルシリーズ)作者: 井手剛,杉山将出版社/メーカー: 講談社発売日: 2015/12/04メディア: Kindle版この商品を含むブログを見る『異常検知と変化検知』の12章で説明されているカルバック・ライブラー密度比推定法を…

ポアソン混合モデルの変分ベイズによる推定をRで(ベイズ推論による機械学習入門)

モデル パラメータ のポアソン分布の確率関数を と書くことにする. の確率関数を, とする.ここで はカテゴリカル分布にしたがう変数とする. は観測されない潜在変数である. の事前分布にパラメータ , のガンマ分布を仮定する.カテゴリカル分布のパラメータ …

スパークライン風のカプランマイヤープロット

層分けが多くなると凡例と見比べるのが大変なのでなんとかしたいと思った。普通にプロットする。はい。スパークライン風にプロットするとこんな感じかなあ。累積イベント発生率が25%に達する点、50%に達する点、75%に達する点に赤っぽい丸、最後のイベント発…

[googleAnalyticsR]再発事象のカプラン・マイヤープロット

survrec っていうパッケージもあるらしいけど慣れてないので survival を使います。どのチャネルが再来訪しやすいのか、何日くらいの間隔で何パーセントくらい戻ってくるのかがわかります。 library(googleAnalyticsR) library(tidyverse) library(survival)…

【rstan】グループ化時間&右切断ワイブル分布+ポアソンノイズで需要予測モデル

なにかの製品の月ごとなり週ごとなりの出荷数のデータがあるとします。 このデータを「製品が発売されてから消費者が購入に至るまでの待ち時間」を計測したものだと捉えなおすと、ワイブル分布を仮定して分析するのもさほど不自然ではないように思えます。そ…

rstan で生存関数の推定(離散時間, 2群)

いろいろやり方はあると思うけど, かんたんに書けるので, とりあえずこれでいいかなと思った.生存関数を で表し, 離散時間でハザードを考えると,, , ,...生存関数を考えると,, , ,...各時間区切りごとのイベント数を , リスクセット(その時間の直前までイベ…

AICと一個抜き交差検証法と汎化損失のシミュレーション

R

AICは汎化損失を近似するもので漸近的には一個抜き交差検証法の結果と一致するという話を聞いてやってみました。 汎化損失 分布の「近さ」を測る尺度として代表的なものが次に定義されるカルバック・ライブラ情報量です。これを変形するととなります。 を真…

dlm による LWR モデルのパラメータ推定(渋滞の予測)

シンプルな LWR モデルの近似解 - 廿TT のモデルでもう少し遊んでみる。観測点が 6 個あって、それぞれが時間ごとにトラフィックの量を計測していると考える。上記で離散化した、 が状態方程式である。 が一定という仮定はちょっと不自然な気がするが、下手…

シンプルな LWR モデルの近似解

モデル 渋滞の数理モデルの一つに LWR モデルというのがあり、以下の偏微分方程式で記述される。: 位置 : 時間 : 自動車の密度 : 自動車の通過量このモデルでは一次元の道路を通行する自動車の密度を考えている。自動車の密度 は、単位長さあたりの自動車の…

Rcpp を用いたギブスサンプリングのかんたんな例題

参考文献 Rによるモンテカルロ法入門作者: C.P.ロバート,G.カセーラ,石田基広,石田和枝出版社/メーカー: 丸善出版発売日: 2012/08/23メディア: ムック購入: 1人 クリック: 23回この商品を含むブログ (2件) を見る計算統計学の方法―ブートストラップ・EMアル…

カーネル密度推定で推定された密度からのリサンプリング

R

R です。乱数です。何の意味があるのかわかりませんけれども。一次元です。 set.seed(1) dens1 <-density(faithful$eruptions) r1 <-sample(dens1$x,1000,prob=dens1$y,replace = TRUE) hist(r1,freq = FALSE) lines(dens1,lwd=2) 二次元です。 library(MASS…

RcppNumerical でワイブル分布のパラメータの最尤推定

GitHub - yixuan/RcppNumerical: Rcpp Integration for Numerical Computing Libraries を参考に、optim_lbfgs を使ってワイブル分布のパラメータの最尤推定を試した.変数 f に対数尤度, g1, g2 に対数対数の一回微分, を与えています. // [[Rcpp::depends(R…

順序のある2次元分割表の比例ハザードモデル

R

モデルと尤度関数 2次元分割表 (, ) が得られたとする. たとえばこんなふうだ. 強く反対 反対 中立 賛成 強く賛成 皆無 15 5 6 0 1 まれ 8 17 13 7 2 ときどき 3 4 4 7 6 しばしば 2 0 3 5 3 常時 0 2 2 9 16 このデータは柳本・清水(1983)からの孫引きで,…

Rcpp の rexp の引数はレートじゃなくて平均だった。

こうやってやると R の rexp と結果が一致する. #include <Rcpp.h> using namespace Rcpp; // [[Rcpp::export]] NumericVector rexp2(int N, double lambda) { NumericVector out(N); for(int i=0; i</rcpp.h>

EMアルゴリズムを用いたときの観測情報行列の求め方(混合二項分布)

R

Louis の公式 Louis (1982) はEMアルゴリズムを用いたときの観測情報行列に関する, 以下の関係式を導いた.ここで は完全データの対数尤度の 1 次導関数ベクトル, は 2 次導関数行列の負値である.さらに未観測のデータ が, 多項分布(カテゴリカル分布)に従…

EMアルゴリズムを用いたときの観測情報行列の求め方(混合正規分布)

R

Louis の公式 EMアルゴリズムの弱点は, 推定量の分散の評価を直接的には得られないことにあった.しかし, 完全なデータが得られたという条件の下で対数尤度を用いて情報行列を計算する方法がいくつか考案されている. Louis (1982) は, 以下の関係式を示した.…