読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

RGoogleAnalytics + ggplot2 による箱ひげ図とカレンダープロット

カレンダープロット

カレンダープロット - 東京で尻を洗う では、openair パッケージのカレンダープロットが紹介されています。

ここでは ggplot2 を使って、カレンダー状のグラフをかいてみます。

library("RGoogleAnalytics")
query <- QueryBuilder()
access_token <- query$authorize()

ここでアクセストークンをコピペ。
RGoogleAnalytics をいじっている - 廿TT を参照。)

ga <- RGoogleAnalytics()
ga.profiles <- ga$GetProfileData(access_token)

sta ="2013-07-01"
en ="2014-09-30"
query$Init(start.date = sta,
           end.date = en,
           dimensions = "ga:date",
           metrics = "ga:sessions,ga:goal2Completions",
           #           sort= ,
           max.results = 10000,
           table.id = paste("ga:",ga.profiles$id[1],sep="",collapse=","),
           access_token=access_token)
ss <- ga$GetReportData(query)
#データ取得は完了
#以下整形
l1 <- dim(ss)[1]
t1 <-substr(ss$date,7,8)
tmp <- as.numeric(t1) %% 7

ss$date_of_week <- ifelse(tmp==0,7,tmp)
  
tmp <- sort(rep(1:5,7))
t1 <- tapply(1:l1,factor(ss$month),function(x){
  l<- length(x)
  tmp[1:l]
} )

ss$week_of_month <- unlist(t1)

library(ggplot2)
theme_set(theme_bw(15))
#カレンダープロット
ggplot(ss, aes(x=week_of_month, y=date_of_week)) +
  geom_tile(aes(fill = sessions)) +
  facet_wrap(~month) +
  scale_fill_gradient(high="#0068b7",low="white") +
  geom_point(aes(x=week_of_month, y=date_of_week,
                 size=goal2Completions),color="#f39800") 

f:id:abrahamcow:20141022220317p:plain
コンバージョン数を点の大きさで、セッション数を色の濃さで表すことで2つの変数を同時に把握できるのがメリットです。

2014年1月の第1週目、5〜7付近にトラフィックが集中しているため、他の日付の細かな増減が把握しにくいのがデメリットでしょうか。
(どうでもいいけどこのグラフ、オレンジのブツブツがなんとなく皮膚病を連想させますね)


Calender Heatmap with Google Analytics Data | Tatvic Blog
統計グラフの色

箱ひげ図(ボックスプロット)

2014年1月の第1週目、5〜7付近にトラフィックが集中していることがわかりました。

そういった外れ値(飛び抜けた値)も気になりますが、ベースラインとしてセッション(訪問)数が増えているかどうかも気になるところです。

そのような場合、箱ひげ図は有用です。

ss$month <- paste(
  substr(ss$date,1,4),
  substr(ss$date,5,6),
  sep="/")

#箱ひげ図
ggplot(ss,aes(x=month, y=sessions)) +
  geom_boxplot() +
  scale_y_continuous(labels = comma) +
  labs(x="")
head(ss)

f:id:abrahamcow:20141022220933p:plain

箱の中央の黒い太線は中央値なので、外れ値にひっぱられにくいというメリットがあります。

中央値を追っていくと、ゆるやかな増加傾向が伺えます。

箱ひげ図は義務教育では教わりませんが、株価のローソクチャートなどと似ているため、ビジネスマンにはなじみやすいのではないでしょうか。

箱ひげ図 - Wikipedia