廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

時系列

【rstan】グループ化時間&右切断ワイブル分布+ポアソンノイズで需要予測モデル

なにかの製品の月ごとなり週ごとなりの出荷数のデータがあるとします。 このデータを「製品が発売されてから消費者が購入に至るまでの待ち時間」を計測したものだと捉えなおすと、ワイブル分布を仮定して分析するのもさほど不自然ではないように思えます。そ…

dlm による LWR モデルのパラメータ推定(渋滞の予測)

シンプルな LWR モデルの近似解 - 廿TT のモデルでもう少し遊んでみる。観測点が 6 個あって、それぞれが時間ごとにトラフィックの量を計測していると考える。上記で離散化した、 が状態方程式である。 が一定という仮定はちょっと不自然な気がするが、下手…

ggplot2 でラザニアプロット(ある値以上の値を合算したヒートマップ)

geom_lasagna.R · GitHub を書きました。ラザニアプロットというのは要は時系列データについてのヒートマップ(色付きテーブル)です(ラザニアプロット(fields パッケージの image.plot にちょっと一工夫) - 廿TT)。さて、Web 解析の分野ではよく「エン…

ggplot2 で移動平均(stat_ma)

Extending ggplot2 (Extending ggplot2(和訳) - Qiita)を読んで自分でも新しい stat を作ってみたくなったので、手始めに練習として移動平均を描画する関数 stat_ma を書いてみました。stat_ma.R · GitHub library(ggplot2) source("https://gist.github…

バスモデル:エクセルによる需要予測

バスモデルを使って需要予測ができるエクセルシートを以下に公開しました。http://zisatsu.web.fc2.com/monooki/excel/Bass_model.xlsx 使い方 データの列に予測したい対象のこれまでの販売数を入れます。今回は例として トヨタ自動車、ハイブリッド車のグロ…

[RStan]差分方程式で呂布カルマのフリースタイルダンジョン出場を振り返る

モチベーション [dlm]状態空間モデルでトレンドと広告の効果を分離して推定する - 廿TT で、「広告の効果測定において、残存効果、タイムラグをモデルに組み込みたい」というコメントを頂戴したので、それっぽいモデルを考えてみた。提案モデルはちょっと…

紀元一世紀のできごとを覚えるために語呂合わせを考えてみました(1〜30)

西暦1年 マヤで供物(人身御供や人体損壊含む)の習慣、始まる。 1年 - Wikipedia い(1)けにえの習慣マヤではじまった。 西暦2年 仏教が中国に伝わる。 2年 - Wikipedia 中国に(2) 仏教きたよ。ありがたや。 西暦3年 野見宿禰が埴輪を考案。 3年 - Wikip…

pymc3 で状態空間(ローカルレベル)モデル

Python ハローワールドです。Rodeo(Yhat End-to-End Data Science Platform: Rodeo)っていう RStudio みたいなやつをいれました。なかなか快適です。 import numpy as np import pymc3 as pm import matplotlib.pyplot as plt import statistics as stat i…

R によるすごくかんたんなパーティクルフィルタの実装例

これであってるのかあんまり自信ない。主に http://daweb.ism.ac.jp/koza/koza2008/PF_Nakano20081030.pdf を参考にしました。パーティクルフィルタのアルゴリズムは、 一期先の予測を乱数でばらまく 得られた乱数に尤度の重みをつけてまき直す だと理解しま…

未知の変化点があるモデルでは AIC が使えない

モデル 時系列データ () があるとします. このデータが, 変化点()以前では平均 , 標準偏差 1 の正規分布に従い, 変化点から後には平均 , 標準偏差 1 の正規分布に従うと考えます. 標準偏差は既知とします.ここで は標準正規分布に従う確率変数です.変化点 …

ラザニアプロット(fields パッケージの image.plot にちょっと一工夫)

このエントリは計算機統計学会第30回シンポジウムにおける兼田麻里奈、坂本亘両氏のご発表「ラザニアプロットを用いた経時データの視覚化」(https://www.jstage.jst.go.jp/article/jscssymo/30/0/30_177/_pdf)にインスパイアされたものです。時系列データ…

時系列データで相関を出してはいけないのか(失業と自殺は関係あるのか2)

経緯 じ、時系列データに対して単純な相関を算出している。。。 https://t.co/3yUB5ZEhRo— 統計たん@Rアイドル (@stattan) 2016年7月15日男性に関して言えば、失業率と自殺率は強い相関を持つことが舞田敏彦らによって指摘されている。相関係数は0.7224。デ…

[KFAS]0-1データの状態空間モデル(打者の調子の波のモデル化 3)

とりあえずプロット Albert (2008) 打者の調子の波のモデル化 - 廿TT 打者の調子の波のモデル化(幾何分布編) - 廿TT と同じく、カルロス・ギーエンの打撃成績のデータを使います。 y <- c(0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1,…

岩波データサイエンス Vol.1 の年輪の例題を dlm でやる

DLM ノイズが正規分布し、変数間の関係が線形の状態空間モデルは動的線形モデル(Dynamic Linear Model; DLM)と呼ばれる。動的線形モデルは以下の式で表現できる。 推定問題 現時刻を k とするとき、推定問題はつぎの三つに分類できる。 予測(prediction)…

[dlm]状態空間モデルでトレンドと広告の効果を分離して推定する

はじめに Stanで統計モデリングを学ぶ(7): 時系列の「トレンド」を目視ではなくきちんと統計的に推定する - 東京で働くデータサイエンティストのブログ をみてください。上記事では Stan で状態空間モデルを推定しているので、ここでは R の dlm パッケージ…

状態空間モデルで自然検索トラフィックの成長を予測する

場面設定 コンテンツを増やせばそれだけ自然検索にヒットするページが増え、ウェブサイトのトラフィックは増加します。向こう一年間これだけ記事を書くぞ、というのが決まっていたとして、その計画から自然検索経由の訪問(セッション)数を予測できるでしょ…

R を使ってバスモデルを当てはめてみた

バスモデルのなんたるかについては バスモデル - ORWiki を参照。バスモデルは以下の微分方程式で記述される。閉じた形で解が求まる。 検算 deSolve パッケージを使って数値的に解いた値と解析解をくらべて、この解が正しいことを一応確かめた。丸が数値解、…

[ggplot2]折れ線グラフを基準値の上下で塗りつぶす

library(ggplot2) ybar <- mean(lh) lh2 <- c(ybar,lh,ybar) df4plot <- data.frame(time=1:length(lh2), lh=lh2) df4plot$lower <- ifelse(lh2<=ybar,lh2,ybar) ggplot(df4plot,aes(x=time,y=lh)) + geom_line() + geom_polygon(aes(x=time, ymin=lower,yma…

(R + Google アナリティクス)スパークラインからはじめる探索的アクセス解析

はじめに 多くのWeb解析担当者という人たちは日々なにをやっているのでしょうか。おそらくみんな「注目すべき事象」と「その原因」を探しています。こういうとむずかしく感じるかもしれませんが、分解していくとその作業は単純です。「注目すべき事象」と「…

R(ggplot2)で移動平均

追記:関数化しました。abrahamcow.hatenablog.com 標準の plot #テストデータの生成 set.seed(1) y=cumsum(rnorm(100)) plot.ts(y, type="l") この系列に移動平均線を加えるのには latticeExtra パッケージの simpleSmoothTs 関数を使うと便利です。 librar…

(R+Google アナリティクス)バズやキャンペーンの事後の効果を図示する

目的 Webサイトへの訪問数を増やしたいとき、新しいコンテンツを作ったり、広告を打ったりすることがある。そういう場合、キャンペーンやコンテンツ施策が一時のアクセス増加にとどまらず、波及効果を生んでくれることが望ましい。その波及効果をなるべくシ…

ソーシャルバズマーケティングの後、傾向線(トレンド)が変わっているか。

追記 この記事に興味をもたれた方は、先に (R+Google アナリティクス)バズやキャンペーンの事後の効果を図示する - 廿TT (R+Google アナリティクス)バズやキャンペーンの事後の効果を図示する - 廿TT をご覧ください。こちらのほうが主張も R のコードも…

[SEO]目標ページビュー数に達するまでに必要な記事の数を Google ウェブマスターツールのインデックスステータスから計算してみる

はじめに このブログは個人のものですが、「廿TT」というメディアを運営しているつもりになってみます。当サイトの場合、集客を安定的に成長させることが可能なのは、自然検索トラフィックだと考えました。(RGoogleAnalytics で変化の要因を読みとく(変化…

直帰率と新規率の相関を調べて新規訪問者が回遊しやすいサイトになっているかチェックする

目的 Webアクセス解析データの可視化を以下の二つに大別するとすると、 定点観測型:重要な指標の傾向を整理して把握する 課題発見型:データをある側面から眺めて新たな仮説を立てる 今回やろうとしているのは後者です。直帰率や新規率(新規訪問の割合)は…

変化量と変化率、寄与度と寄与率の違い

定義 変化量は引き算(差分) 変化率は割り算(比率) です。ある変数のとる値が、 から に変化した場合、 を変化量 を変化率 とよびます。また、 寄与率:変化量の内訳(=割合)を示すもの 寄与度:変化率の内訳(のようなもの)を示すもの です。注目した…

時系列データを可視化する折れ線グラフのピリオドの選び方、意外とむずかしい。

要旨 データを月次でみるか週次でみるか、というのは意外とむずかしい問題。時間の区切りを決めるのには、平滑化みたいな考え方が必要になる。 会計的な考え方と統計的な考え方は、折り合いをつけるのがむずかしい。でも必要だ。 家に帰るまでが遠足だし、稟…

何時にツイートしたら一番みてもらえるか。Twitter アナリティクスデータの可視化。

Twitter Analytics からツイートのインプレッション(表示された回数)とかが見れる。ツイートが一番閲覧されやすい時間帯とかってあるのかな、と気になった。とりあえずプロットしてみよう。まずデータをエクスポートして R に読み込む。 dat1 <- read.csv(…

Google アナリティクスよりデバイス別訪問推移(ggplot2 日付−時間スケール)

プロット 昼間はデスクトップからのアクセスが多くて、夜はモバイル&タブレットが多いとか、そういう傾向が見つかったらおもしろいかな、と思ったけど、特にそういうのはなかったです。当ブログはトラフィック自体が多くないので、もうちょっと大規模なサイ…

RGoogleAnalytics + ggplot2 による箱ひげ図とカレンダープロット

前置き これまで、アクセス解析の時系列データを表すための各種グラフを紹介してきました。 RGoogleAnalytics でとりあえず折れ線グラフ - 廿TT RGoogleAnalytics で変化の要因を読みとく(折れ線グラフ、帯グラフ、積み上げ棒グラフ) - 廿TT RGoogleAnalyt…

アクセス解析データと「誤差の範囲」(エラーバー付き棒グラフ)

95%信頼区間のエラーバー付き棒グラフ 当然ですが Web サイトへのアクセス数は増えたり減ったりします。なぜ増えたり減ったりしたのか、それを明らかにするのが Web 解析の目的の一つですが、偶然増えたり減ったりすることもあり得ます。どの程度の増減だっ…