廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

時系列

パーティクルフィルタとMCMCによる離散時間SIRモデルのパラメータ推定

SIR モデルと非定常ポアソン過程 - 廿TT Rcpp で PMMH(パーティクルマージナルメトロポリス・ヘイスティングス) - 廿TT ゼロの多いコンバージョンの状態空間モデル - 廿TT これらのエントリの合わせ技です。考えているモデルは SIRモデルからはじめる微分…

ゼロの多いコンバージョンの状態空間モデル

対象 アマゾンアフィリエイトをやってる。コンバージョンはあまりない。いくつか図を貼ります。去年一年間の日ごとの注文数合計です。なにもない日がけっこう多い。でも後半ちょっと黒いところが増えているような気もする。と思ったけど、以下を見るとやっぱ…

ガンマ・ポアソンの状態空間モデル

PMMH(パーティクルマージナルメトロポリス・ヘイスティングス; Rcpp で PMMH(パーティクルマージナルメトロポリス・ヘイスティングス) - 廿TT)でもう少し遊ぶ。パーティクルフィルタは正規分布以外の分布でも使えるということなので、未観測の状態変数が…

Rcpp で PMMH(パーティクルマージナルメトロポリス・ヘイスティングス)

R によるすごくかんたんなパーティクルフィルタの実装例 - 廿TT では分散パラメータを既知としていますが、分散パラメータも推定したい。パーティクルフィルタの重みから周辺尤度を出してランダム・ウォーク・メトロポリス・ヘイスティングスでサンプリング…

StanとRで最低賃金と失業率の関係を調べる

下記の内容について「先行研究も調べずにがさつな分析で結論を出すのはよくない」(引用は不正確)というようなコメントを頂戴し、そりゃそうだとおもったので最低賃金と雇用の関係について勉強になりそうな文献へのリンクをいくつか貼ります。 http://david…

混合ポアソン分布による逐次更新型異常検知をRで

詳しい説明は『異常検知と変化検知』5章を見てください。異常検知と変化検知 (機械学習プロフェッショナルシリーズ)作者: 井手剛,杉山将出版社/メーカー: 講談社発売日: 2015/08/08メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る『異常…

時系列データで相関を出してはいけないのなら空間データでも相関を出してはいけないのではないか

以前に エクセルで無相関検定:失業率と野菜摂取量の相関 - 廿TT というエントリを書いた。めちゃくちゃ批判されるかと思ったけどそうでもなかった。じ、時系列データに対して単純な相関を算出している。。。 https://t.co/3yUB5ZEhRo— 統計たん@Rアイドル (…

[Rcpp]PELT アルゴリズムで変化点の検出

PELT アルゴリズム は R の changepoint パッケージですでに実装されているけど、勉強のためあらためて書いてみる。観測値を とします。複数の変化点があり得る場合、なんらかの情報量規準を用いて変化点検知をするにはを最小化する変化点 を見つける必要が…

状態空間モデル(ローカルレベルモデル)で変化点の検出

ローカルレベルモデル ローカルレベルモデルは以下の組で表されるモデルです.観測モデル: システムモデル: は観測値, は未観測の「状態」です. は観測ノイズ, はシステムノイズと呼ばれます. という式は「状態は変化しているが, 一歩前の値と近い値を取る…

【rstan】グループ化時間&右切断ワイブル分布+ポアソンノイズで需要予測モデル

なにかの製品の月ごとなり週ごとなりの出荷数のデータがあるとします。 このデータを「製品が発売されてから消費者が購入に至るまでの待ち時間」を計測したものだと捉えなおすと、ワイブル分布を仮定して分析するのもさほど不自然ではないように思えます。そ…

dlm による LWR モデルのパラメータ推定(渋滞の予測)

シンプルな LWR モデルの近似解 - 廿TT のモデルでもう少し遊んでみる。観測点が 6 個あって、それぞれが時間ごとにトラフィックの量を計測していると考える。上記で離散化した、 が状態方程式である。 が一定という仮定はちょっと不自然な気がするが、下手…

ggplot2 でラザニアプロット(ある値以上の値を合算したヒートマップ)

geom_lasagna.R · GitHub を書きました。ラザニアプロットというのは要は時系列データについてのヒートマップ(色付きテーブル)です(ラザニアプロット(fields パッケージの image.plot にちょっと一工夫) - 廿TT)。さて、Web 解析の分野ではよく「エン…

ggplot2 で移動平均(stat_ma)

Extending ggplot2 (Extending ggplot2(和訳) - Qiita)を読んで自分でも新しい stat を作ってみたくなったので、手始めに練習として移動平均を描画する関数 stat_ma を書いてみました。stat_ma.R · GitHub library(ggplot2) source("https://gist.github…

バスモデル:エクセルによる需要予測

バスモデルを使って需要予測ができるエクセルシートを以下に公開しました。http://zisatsu.web.fc2.com/monooki/excel/Bass_model.xlsx 使い方 データの列に予測したい対象のこれまでの販売数を入れます。今回は例として トヨタ自動車、ハイブリッド車のグロ…

[RStan]差分方程式で呂布カルマのフリースタイルダンジョン出場を振り返る

モチベーション [dlm]状態空間モデルでトレンドと広告の効果を分離して推定する - 廿TT で、「広告の効果測定において、残存効果、タイムラグをモデルに組み込みたい」というコメントを頂戴したので、それっぽいモデルを考えてみた。提案モデルはちょっと…

紀元一世紀のできごとを覚えるために語呂合わせを考えてみました(1〜30)

西暦1年 マヤで供物(人身御供や人体損壊含む)の習慣、始まる。 1年 - Wikipedia い(1)けにえの習慣マヤではじまった。 西暦2年 仏教が中国に伝わる。 2年 - Wikipedia 中国に(2) 仏教きたよ。ありがたや。 西暦3年 野見宿禰が埴輪を考案。 3年 - Wikip…

pymc3 で状態空間(ローカルレベル)モデル

Python ハローワールドです。Rodeo(Yhat End-to-End Data Science Platform: Rodeo)っていう RStudio みたいなやつをいれました。なかなか快適です。 import numpy as np import pymc3 as pm import matplotlib.pyplot as plt import statistics as stat i…

R によるすごくかんたんなパーティクルフィルタの実装例

これであってるのかあんまり自信ない。主に http://daweb.ism.ac.jp/koza/koza2008/PF_Nakano20081030.pdf を参考にしました。パーティクルフィルタのアルゴリズムは、 一期先の予測を乱数でばらまく 得られた乱数に尤度の重みをつけてまき直す だと理解しま…

未知の変化点があるモデルでは AIC が使えない

モデル 時系列データ () があるとします. このデータが, 変化点()以前では平均 , 標準偏差 1 の正規分布に従い, 変化点から後には平均 , 標準偏差 1 の正規分布に従うと考えます. 標準偏差は既知とします.ここで は標準正規分布に従う確率変数です.変化点 …

ラザニアプロット(fields パッケージの image.plot にちょっと一工夫)

このエントリは計算機統計学会第30回シンポジウムにおける兼田麻里奈、坂本亘両氏のご発表「ラザニアプロットを用いた経時データの視覚化」(https://www.jstage.jst.go.jp/article/jscssymo/30/0/30_177/_pdf)にインスパイアされたものです。時系列データ…

時系列データで相関を出してはいけないのか(失業と自殺は関係あるのか2)

経緯 じ、時系列データに対して単純な相関を算出している。。。 https://t.co/3yUB5ZEhRo— 統計たん@Rアイドル (@stattan) 2016年7月15日男性に関して言えば、失業率と自殺率は強い相関を持つことが舞田敏彦らによって指摘されている。相関係数は0.7224。デ…

[KFAS]0-1データの状態空間モデル(打者の調子の波のモデル化 3)

とりあえずプロット Albert (2008) 打者の調子の波のモデル化 - 廿TT 打者の調子の波のモデル化(幾何分布編) - 廿TT と同じく、カルロス・ギーエンの打撃成績のデータを使います。 y <- c(0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1,…

岩波データサイエンス Vol.1 の年輪の例題を dlm でやる

DLM ノイズが正規分布し、変数間の関係が線形の状態空間モデルは動的線形モデル(Dynamic Linear Model; DLM)と呼ばれる。動的線形モデルは以下の式で表現できる。 推定問題 現時刻を k とするとき、推定問題はつぎの三つに分類できる。 予測(prediction)…

[dlm]状態空間モデルでトレンドと広告の効果を分離して推定する

はじめに Stanで統計モデリングを学ぶ(7): 時系列の「トレンド」を目視ではなくきちんと統計的に推定する - 東京で働くデータサイエンティストのブログ をみてください。上記事では Stan で状態空間モデルを推定しているので、ここでは R の dlm パッケージ…

状態空間モデルで自然検索トラフィックの成長を予測する

場面設定 コンテンツを増やせばそれだけ自然検索にヒットするページが増え、ウェブサイトのトラフィックは増加します。向こう一年間これだけ記事を書くぞ、というのが決まっていたとして、その計画から自然検索経由の訪問(セッション)数を予測できるでしょ…

R を使ってバスモデルを当てはめてみた

バスモデルのなんたるかについては バスモデル - ORWiki を参照。バスモデルは以下の微分方程式で記述される。閉じた形で解が求まる。 検算 deSolve パッケージを使って数値的に解いた値と解析解をくらべて、この解が正しいことを一応確かめた。丸が数値解、…

[ggplot2]折れ線グラフを基準値の上下で塗りつぶす

library(ggplot2) ybar <- mean(lh) lh2 <- c(ybar,lh,ybar) df4plot <- data.frame(time=1:length(lh2), lh=lh2) df4plot$lower <- ifelse(lh2<=ybar,lh2,ybar) ggplot(df4plot,aes(x=time,y=lh)) + geom_line() + geom_polygon(aes(x=time, ymin=lower,yma…

(R + Google アナリティクス)スパークラインからはじめる探索的アクセス解析

はじめに 多くのWeb解析担当者という人たちは日々なにをやっているのでしょうか。おそらくみんな「注目すべき事象」と「その原因」を探しています。こういうとむずかしく感じるかもしれませんが、分解していくとその作業は単純です。「注目すべき事象」と「…

R(ggplot2)で移動平均

追記:関数化しました。abrahamcow.hatenablog.com 標準の plot #テストデータの生成 set.seed(1) y=cumsum(rnorm(100)) plot.ts(y, type="l") この系列に移動平均線を加えるのには latticeExtra パッケージの simpleSmoothTs 関数を使うと便利です。 librar…

(R+Google アナリティクス)バズやキャンペーンの事後の効果を図示する

目的 Webサイトへの訪問数を増やしたいとき、新しいコンテンツを作ったり、広告を打ったりすることがある。そういう場合、キャンペーンやコンテンツ施策が一時のアクセス増加にとどまらず、波及効果を生んでくれることが望ましい。その波及効果をなるべくシ…