読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

未知の変化点があるモデルでは AIC が使えない

モデル 時系列データ () があるとします. このデータが, 変化点()以前では平均 , 標準偏差 1 の正規分布に従い, 変化点から後には平均 , 標準偏差 1 の正規分布に従うと考えます. 標準偏差は既知とします.ここで は標準正規分布に従う確率変数です.変化点 …

時系列データで相関を出してはいけないのか(失業と自殺は関係あるのか2)

経緯 じ、時系列データに対して単純な相関を算出している。。。 https://t.co/3yUB5ZEhRo— 統計たん@Rアイドル (@stattan) 2016年7月15日男性に関して言えば、失業率と自殺率は強い相関を持つことが舞田敏彦らによって指摘されている。相関係数は0.7224。デ…

[KFAS]0-1データの状態空間モデル(打者の調子の波のモデル化 3)

とりあえずプロット Albert (2008) 打者の調子の波のモデル化 - 廿TT 打者の調子の波のモデル化(幾何分布編) - 廿TT と同じく、カルロス・ギーエンの打撃成績のデータを使います。 y <- c(0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1,…

岩波データサイエンス Vol.1 の年輪の例題を dlm でやる

DLM ノイズが正規分布し、変数間の関係が線形の状態空間モデル動的線形モデル(Dynamic Linear Model; DLM)と呼ばれる。動的線形モデルは以下の式で表現できる。 推定問題 現時刻を k とするとき、推定問題はつぎの三つに分類できる。 予測(prediction):…

[dlm]状態空間モデルでトレンドと広告の効果を分離して推定する

はじめに Stanで統計モデリングを学ぶ(7): 時系列の「トレンド」を目視ではなくきちんと統計的に推定する - 東京で働くデータサイエンティストのブログ をみてください。上記事では Stan で状態空間モデルを推定しているので、ここでは R の dlm パッケージ…

状態空間モデルで自然検索トラフィックの成長を予測する

場面設定 コンテンツを増やせばそれだけ自然検索にヒットするページが増え、ウェブサイトのトラフィックは増加します。向こう一年間これだけ記事を書くぞ、というのが決まっていたとして、その計画から自然検索経由の訪問(セッション)数を予測できるでしょ…

R を使ってバスモデルを当てはめてみた

バスモデルのなんたるかについては バスモデル - ORWiki を参照。バスモデルは以下の微分方程式で記述される。閉じた形で解が求まる。 検算 deSolve パッケージを使って数値的に解いた値と解析解をくらべて、この解が正しいことを一応確かめた。丸が数値解、…

[ggplot2]折れ線グラフを基準値の上下で塗りつぶす

library(ggplot2) ybar <- mean(lh) lh2 <- c(ybar,lh,ybar) df4plot <- data.frame(time=1:length(lh2), lh=lh2) df4plot$lower <- ifelse(lh2<=ybar,lh2,ybar) ggplot(df4plot,aes(x=time,y=lh)) + geom_line() + geom_polygon(aes(x=time, ymin=lower,yma…

(R + Google アナリティクス)スパークラインからはじめる探索的アクセス解析

はじめに 多くのWeb解析担当者という人たちは日々なにをやっているのでしょうか。おそらくみんな「注目すべき事象」と「その原因」を探しています。こういうとむずかしく感じるかもしれませんが、分解していくとその作業は単純です。「注目すべき事象」と「…

R(ggplot2)で移動平均

標準の plot #テストデータの生成 set.seed(1) y=cumsum(rnorm(100)) plot.ts(y, type="l") この系列に移動平均線を加えるのには latticeExtra パッケージの simpleSmoothTs 関数を使うと便利です。 library(latticeExtra) ma <- simpleSmoothTs(y,width=7) …

(R+Google アナリティクス)バズやキャンペーンの事後の効果を図示する

目的 Webサイトへの訪問数を増やしたいとき、新しいコンテンツを作ったり、広告を打ったりすることがある。そういう場合、キャンペーンやコンテンツ施策が一時のアクセス増加にとどまらず、波及効果を生んでくれることが望ましい。その波及効果をなるべくシ…

ソーシャルバズマーケティングの後、傾向線(トレンド)が変わっているか。

追記 この記事に興味をもたれた方は、先に (R+Google アナリティクス)バズやキャンペーンの事後の効果を図示する - 廿TT (R+Google アナリティクス)バズやキャンペーンの事後の効果を図示する - 廿TT をご覧ください。こちらのほうが主張も R のコードも…

[SEO]目標ページビュー数に達するまでに必要な記事の数を Google ウェブマスターツールのインデックスステータスから計算してみる

はじめに このブログは個人のものですが、「廿TT」というメディアを運営しているつもりになってみます。当サイトの場合、集客を安定的に成長させることが可能なのは、自然検索トラフィックだと考えました。(RGoogleAnalytics で変化の要因を読みとく(変化…

直帰率と新規率の相関を調べて新規訪問者が回遊しやすいサイトになっているかチェックする

目的 Webアクセス解析データの可視化を以下の二つに大別するとすると、 定点観測型:重要な指標の傾向を整理して把握する 課題発見型:データをある側面から眺めて新たな仮説を立てる 今回やろうとしているのは後者です。直帰率や新規率(新規訪問の割合)は…

変化量と変化率、寄与度と寄与率の違い

定義 変化量は引き算(差分) 変化率は割り算(比率) です。ある変数のとる値が、 から に変化した場合、 を変化量 を変化率 とよびます。また、 寄与率:変化量の内訳(=割合)を示すもの 寄与度:変化率の内訳(のようなもの)を示すもの です。注目した…

時系列データを可視化する折れ線グラフのピリオドの選び方、意外とむずかしい。

要旨 データを月次でみるか週次でみるか、というのは意外とむずかしい問題。時間の区切りを決めるのには、平滑化みたいな考え方が必要になる。 会計的な考え方と統計的な考え方は、折り合いをつけるのがむずかしい。でも必要だ。 家に帰るまでが遠足だし、稟…

何時にツイートしたら一番みてもらえるか。Twitter アナリティクスデータの可視化。

Twitter Analytics からツイートのインプレッション(表示された回数)とかが見れる。ツイートが一番閲覧されやすい時間帯とかってあるのかな、と気になった。とりあえずプロットしてみよう。まずデータをエクスポートして R に読み込む。 dat1 <- read.csv(…

Google アナリティクスよりデバイス別訪問推移(ggplot2 日付−時間スケール)

プロット 昼間はデスクトップからのアクセスが多くて、夜はモバイル&タブレットが多いとか、そういう傾向が見つかったらおもしろいかな、と思ったけど、特にそういうのはなかったです。当ブログはトラフィック自体が多くないので、もうちょっと大規模なサイ…

RGoogleAnalytics + ggplot2 による箱ひげ図とカレンダープロット

前置き これまで、アクセス解析の時系列データを表すための各種グラフを紹介してきました。 RGoogleAnalytics でとりあえず折れ線グラフ - 廿TT RGoogleAnalytics で変化の要因を読みとく(折れ線グラフ、帯グラフ、積み上げ棒グラフ) - 廿TT RGoogleAnalyt…

アクセス解析データと「誤差の範囲」(エラーバー付き棒グラフ)

95%信頼区間のエラーバー付き棒グラフ 当然ですが Web サイトへのアクセス数は増えたり減ったりします。なぜ増えたり減ったりしたのか、それを明らかにするのが Web 解析の目的の一つですが、偶然増えたり減ったりすることもあり得ます。どの程度の増減だっ…

ページビュー数の推移の集計など、単純作業に RGoogleAnalytics が便利

動機 これまで R + Google アナリティクス関連のエントリをいくつか書いてきた。 (Google アナリティクス - 廿TT を参照。)R は統計処理に特化した言語だが、もともとぼくが RGoogleAnalytics さわろうと思ったきっかけは、単に「Excel 苦手……。データ集計…

CVR、新規率、直帰率と「誤差の範囲」(信頼区間付き折れ線グラフ)

分母が違う場合の「割合」の比較 Web 解析の分野ではしばしば、なにかをなにかで割った値、「割合」を定期的に観察することが行われます。なかでもよく使われる指標は CVR(コンバージョンレート)、直帰率(bounce rate)、新規率(新規訪問の割合)などで…

【ご提案】イノベーター理論の普及曲線とか捨てて、レベルレート図を使いましょう

代案を出せ ロジャースのイノベーター理論ってこれでいいの? - 廿TTぼくは ロジャースのイノベーター理論ってこれでいいの? - 廿TT で、ロジャースの『イノベーション普及学』で提示されたモデル(下図のようなやつ) は、根拠不明、ロジャース自身が自分…

RGoogleAnalytics で変化の要因を読みとく(変化率と寄与度のグラフ)

変化率と寄与度 下の図は当ブログのセッション(訪問数)の月次推移です。 GDP をみるときなどは GDP そのものでなく、GDP の成長率に注目したりします。アクセス解析の分野でも、目標を立てて指標を定期的にするときなどには変化率(増加率、成長率)に着目…

時系列データの相関係数はあてにならない……のか? 教えて下さい

本記事の趣旨 見せ掛けの回帰と見せ掛けの相関(擬似相関)は違います。 時系列(というか、ランダムウォークする系列 ランダムウォーク - Wikipedia )の場合、相関係数は比較的高い値になりやすく、また有意な相関が出やすいので注意。 あと高橋洋一の議論…

ロジャースのイノベーター理論ってこれでいいの?

イノベーター理論とは マーケティング界隈でイノベーター理論というのがある。こんな風だ。 イノベーター(Innovators:革新者):冒険心にあふれ、新しいものを進んで採用する人。市場全体の2.5%。 アーリーアダプター(Early Adopters:初期採用者):流…

RGoogleAnalytics で変化の要因を読みとく(折れ線グラフ、帯グラフ、積み上げ棒グラフ)

折れ線グラフ 「変化の要因を読みとく」とか、つい大げさなタイトルをつけてしまったが、単に折れ線グラフと帯グラフ、積み上げ棒グラフの話。経時的な変化を見るには折れ線グラフがいい。折れ線グラフの書き方は以前にも書いた。 RGoogleAnalytics でとりあ…

RGoogleAnalytics でとりあえず折れ線グラフ

セットアップ、アカウントのオーサライズは下の記事を参照。 RGoogleAnalytics をいじっている - 廿TT # Loading the RGoogleAnalytics library library("RGoogleAnalytics") # 1. Authorize your account and paste the accesstoken query <- QueryBuilder(…

Google トレンドとちょっと別のおもちゃ、Google AdWords キーワード プランナー

Google AdWords は広告を出稿する人向けのツールなんだけど、いじってあそぶためのアカウントは無料で作れる。 使い方: Google AdWords キーワード プランナー より AdWords にログイン後、「キーワードの検索ボリュームを取得、またはキーワードを広告グル…

Google トレンドの縦軸の数字(検索インタレスト)ってなんなの?

「検索インタレスト」ってどういう意味? Google トレンド 検索インタレスト=(各時点の検索ボリューム÷各時点の検索ボリュームの最大値)×100らしい。もうちょっとシンプルに書くと、年月日 i に、ある語句を検索した人の数を xi としたときの、を検索イン…