廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

Google アナリティクスデータから指標を偏差値化して記事を評価

偏差値好きな人多い印象あるけどぼくはあんまり好きじゃなかった。

でもなんとなく Google アナリティクスデータで偏差値出してみたら、これはこれでけっこういいかも、と思った。

次元(単位)のない量にして、複数の指標どうしを概観的に比較できる。

セッション数、新規率、直帰率、平均滞在時間、ページビュー/セッションをページごとにくらべたヒートマップ(色付きテーブル)が以下です。

f:id:abrahamcow:20160429104010p:plain

セッション数上位ページでは目立った違いは少ないけど、平均滞在時間の優等生は、

abrahamcow.hatenablog.com

abrahamcow.hatenablog.com

だった。

上のような図をかくための R のコードを以下に記載します。

library(RGA)
library(dplyr)
library(tidyr)
library(ggplot2)
authorize()
prof <-list_profiles()
dat1 <-get_ga(profileId = prof$id[1],
              start.date = "2016-03-01",
              end.date = "2016-03-31",
              dimensions = "ga:pageTitle",
              metrics = "ga:sessions,ga:percentNewSessions,ga:bounceRate,ga:avgSessionDuration,ga:pageviewsPerSession")

standardScore<-function(x){
  mu <- mean(x)
  sigma <- sd(x)
  10*(x-mu)/sigma + 50
}

dat2 <- dat1 %>% 
  mutate(standardScore(sessions),
         standardScore(percentNewSessions),
         standardScore(bounceRate),
         standardScore(avgSessionDuration),
         standardScore(pageviewsPerSession)) %>%
  arrange(desc(sessions)) %>%
  select(pageTitle,sessions,starts_with("standardScore"))

dat3 <-dat2 %>%
  gather(key,value,-c(pageTitle,sessions))

filter(dat3,sessions>=100)%>%
  ggplot(aes(x=key,y=reorder(paste0(substr(pageTitle,1,6),"..."),value)))+
  geom_tile(aes(fill=value))+
  geom_text(aes(label=round(value)))+
  theme_bw(15,base_family = "HiraMaruProN-W4")+
  scale_fill_continuous(low="white",high="cornflowerblue")+
  ylab("")+xlab("")

偏差値のなんたるかについてはウィキペディアなどをみてください。

偏差値 - Wikipedia