廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

R

(googleAnalyticsR) コホート比較で再訪率の高い流入経路を探す

Google アナリティクスのコホートレポートの分析例です。高度な使用例 | アナリティクス Reporting API v4 | Google Developers営利目的のサイトだったら、キャンペーン(acquisitionCampaignというディメンション)ごとに再訪率の高さをみるとよさそう。ぼ…

R: madness で自動微分

madness パッケージを使うとベクトルや行列の自動微分ができます。数値微分ではなくて自動微分です。ためしに を で微分してみます。答えは です。 require(madness) x <- array(1:10,dim=c(10,1)) madx <- madness::madness(x) madx2 <- log(madness::colSu…

[searchConsoleR]検索キーワードの階層型クラスタリング

R SEO

本当は 収集したキーワードをグループ化する | 検索連動型広告を成功に導くSEM戦略 | Web担当者Forum の逆問題がやりたいけど攻めあぐねている。 キーワードの距離 どこからどこまでを一つのキーワードとみなすかは難しいですが、ここでは単純に検索クエリ内…

R のエラーメッセージとかを英語にする

R

LANG=en_US.UTF-8と書いて ".Renviron" というファイル名でホームディレクトリに保存する。

目で見る尤度関数(『ベイズ統計の理論と方法』より)

『ベイズ統計の理論と方法』1.4節の例を R でやってみます。ベイズ統計の理論と方法作者: 渡辺澄夫出版社/メーカー: コロナ社発売日: 2012/03/01メディア: 単行本購入: 1人 クリック: 4回この商品を含むブログ (8件) を見る尤度関数が正規分布で近似できると…

多項式回帰モデルの予測分布(『ベイズ推論による機械学習入門』をRで)

『ベイズ推論による機械学習入門』p.109 の図3.8をRで再現してみました。機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー…

Rcpp: カーネル密度推定のバンド幅を一個抜き交差検証法で決める

バンド幅 h をいろいろ変えて一個抜き交差検証法で評価した対数尤度が結構なめらかな形になったのでブレント法で最適なバンド幅を選んでみた。対象としたデータはこれ。h をいろいろ変えて一個抜き交差検証法で評価した対数尤度のプロットはこちら。選ばれた…

ガンマ・ポアソンの状態空間モデル

PMMH(パーティクルマージナルメトロポリス・ヘイスティングス; Rcpp で PMMH(パーティクルマージナルメトロポリス・ヘイスティングス) - 廿TT)でもう少し遊ぶ。パーティクルフィルタは正規分布以外の分布でも使えるということなので、未観測の状態変数が…

Rcpp で PMMH(パーティクルマージナルメトロポリス・ヘイスティングス)

R によるすごくかんたんなパーティクルフィルタの実装例 - 廿TT では分散パラメータを既知としていますが、分散パラメータも推定したい。パーティクルフィルタの重みから周辺尤度を出してランダム・ウォーク・メトロポリス・ヘイスティングスでサンプリング…

[googleAnalyticsR]調整済みオッズ比の四半期比較プロット

とりあえず図とコードだけ貼ります。縦の棒はオッズ比の95%信頼区間です。 library(googleAnalyticsR) library(tidyverse) library(lubridate) ##### ga_auth() account_list <- ga_account_list() ga_id <- account_list$viewId[3] gadata <- google_analyt…

精神疾患の軽症化

精神疾患の軽症化が進んでいる。統合失調症の新規発症が激減し、入院を要するレベルの気分障害がほとんどいなくなり、病棟経営の支えである慢性の統合失調症患者は急速に高齢化が進んでいる。地域移行を進めるまでもなく精神科病床数は今後10年で確実に激減…

StanとRで最低賃金と失業率の関係を調べる

下記の内容について「先行研究も調べずにがさつな分析で結論を出すのはよくない」(引用は不正確)というようなコメントを頂戴し、そりゃそうだとおもったので最低賃金と雇用の関係について勉強になりそうな文献へのリンクをいくつか貼ります。 http://david…

対応のある標本の分析をわざわざStanでやる

sleep データ モデルに個体差のパラメータを入れるかどうかのポイントは、「個体差や場所差が識別できてしまうようなデータのとりかたをしているか」だという話があります(久保 (2012)、p.161)。データ解析のための統計モデリング入門――一般化線形モデル・…

混合ポアソン分布による逐次更新型異常検知をRで

詳しい説明は『異常検知と変化検知』5章を見てください。異常検知と変化検知 (機械学習プロフェッショナルシリーズ)作者: 井手剛,杉山将出版社/メーカー: 講談社発売日: 2015/08/08メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る『異常…

時系列データで相関を出してはいけないのなら空間データでも相関を出してはいけないのではないか

以前に エクセルで無相関検定:失業率と野菜摂取量の相関 - 廿TT というエントリを書いた。めちゃくちゃ批判されるかと思ったけどそうでもなかった。じ、時系列データに対して単純な相関を算出している。。。 https://t.co/3yUB5ZEhRo— 統計たん@Rアイドル (…

フィッシャーの検定がいいか、カイ二乗検定がいいか

俺「有意差ありで有用としていますが,どんな統計解析を使われたのでしょうか?」演者「χ2乗検定です」俺「そのn数だとFisher検定すべきですし,今計算したらp値が0.05より大きいです」演「え・・・??」俺「有意差ないので有用とはいえませんね?」演「」#…

[Rcpp]PELT アルゴリズムで変化点の検出

PELT アルゴリズム は R の changepoint パッケージですでに実装されているけど、勉強のためあらためて書いてみる。観測値を とします。複数の変化点があり得る場合、なんらかの情報量規準を用いて変化点検知をするにはを最小化する変化点 を見つける必要が…

色付きミニ棒グラフ(searchConsoleR)

色付き棒グラフ行列(ggplot2) - 廿TT で書いた theme_spark でもうちょっとあそんでみる。 theme_spark <- function (base_size = 11, base_family = "") { theme_grey(base_size = base_size, base_family = base_family) %+replace% theme(panel.backgro…

色付き棒グラフ行列(ggplot2)

『StanとRでベイズ統計モデリング』12章のデータを使いますStanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (9件) を見るGitHub - MatsuuraKentaro…

[rstan]ランダム効果入り G-O モデルによるツイートのインプレッションの分析

Twitter Analytics からツイートのインプレッション(何回表示されたか)などの情報を見ることができます。ぼくのツイッターアカウントの最近のデータを以下に置いておきます。tweet_activity_metrics_abiko_ushi_20180116_20180213_en.csv · GitHubいま、ツ…

Albert (1992): 正規累積項目反応曲線のギブスサンプリングによる推定. Rcpp による実装例.

Albert, J. H. (1992). Bayesian estimation of normal ogive item response curves using Gibbs sampling. Journal of educational statistics, 17(3), 251-269. https://www.jstor.org/stable/1165149 のアルゴリズムがおもしろかったので紹介します. モデ…

[R+Google アナリティクス]リセンシーどこで切るチャート

アクセス解析の分野ではユーザーの離脱率や維持率を把握したいというニーズがあります。しかし、離脱するユーザーは単にサイトへの訪問を止めるだけで、わざわざ離脱を申告することはめったにありません。このような場合、例えば 「3ヶ月訪問がなければ離脱…

Rによる打ち切りデータのヒストグラム (ggplot2)

生存関数のプロットは便利だけど密度関数のプロットと比べると分布の形状を把握しにくい。そこで打ち切りデータのヒストグラムというのが提案されている(Huzurbazar, A. V. (2005). A Censored Data Histogram. Communications in Statistics - Simulation …

Rによる打ち切りデータの箱ひげ図

右打ち切りのあるデータを視覚化するのにはカプラン・マイヤープロットが便利です。しかし層の数が多くなると判例と見比べるのが大変になる。そこである程度情報を落としてプロットしてもいいかなと思い、打ち切りデータの箱ひげ図を提案にします。make_q_df…

R: CARBayes (version 5.0) をためす

R

R の CARBayes パッケージをためした例は R: CARBayesをためす:Taglibro de H:So-netブログ にある.でもバージョンが変わったりしてるので改めてメモしておく.生態学データ解析 - 本/データ解析のための統計モデリング入門 の11章のデータを使う.これは架…

[googleAnalyticsR]非負値行列因子分解を用いたユーザーと閲覧ページのクラスタリング(とレコメンド)

非負値行列因子分解(非負値行列因子分解をRで(ベイズ推論による機械学習入門) - 廿TT)でもう少し遊んでみる.メインの関数は Non-negative matrix factorization · GitHub に上げました.非負値行列因子分解は情報推薦にも応用できる(Rによるレコメンドの…

非負値行列因子分解をRで(ベイズ推論による機械学習入門)

『ベイズ推論による機械学習入門』で解説されていた非負値行列因子分解 (Non-negative matrix factorization, NMF or NNMF) を R でやってみます.機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版…

状態空間モデル(ローカルレベルモデル)で変化点の検出

ローカルレベルモデル ローカルレベルモデルは以下の組で表されるモデルです.観測モデル: システムモデル: は観測値, は未観測の「状態」です. は観測ノイズ, はシステムノイズと呼ばれます. という式は「状態は変化しているが, 一歩前の値と近い値を取る…

R: apply系の関数の代わりにpurrrを使ってみる

R

apply 行列の行ごとのトリム平均を求める.applyで書くとこう. rowmean1 <-apply(x, 1, mean, trim = 0.2) purrrのmap関数を使うとこう. rowmean2 <-map(array_branch(x,1),mean,trim=0.2) ベンチマークしてみるとpurrrのほうがほんのすこしはやいです. libra…

カルバック・ライブラー密度比推定法をRで(異常検知と変化検知)

異常検知と変化検知 (機械学習プロフェッショナルシリーズ)作者: 井手剛,杉山将出版社/メーカー: 講談社発売日: 2015/12/04メディア: Kindle版この商品を含むブログを見る『異常検知と変化検知』の12章で説明されているカルバック・ライブラー密度比推定法を…