読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

twitteR でかんたんレピュテーション・マネジメント(評判分析)

レピュテーション・マネジメントとは

twitteR が使えるようになった(twitteR を使えるようにするためのメモ(version 1.1.9) - 廿TT)のでかんたんな集計を行ってみます。

レピュテーション・マネジメントとは企業や組織がみずからの評判を守るために行う活動のことを指します。

リリース・ノートをうった直後とか、なにかニュースがあったあとに、SNS などの反応をチェックすることをたしなみとしているビジネスマンの方は多いのではないでしょうか。

今回の分析対象には、(なんのうらみもないしお仕事をご一緒したこともございませんが)「ジャニーズ事務所」を選びました。

累積ツイート数プロット(折れ線グラフ)

twitter にどのくらいのスピードで書き込みがされているかを調べることで、組織や企業の影響力を推し量ることができます。

まず文字列「ジャニーズ」で検索してツイートを取得します。
(アカウントのオーサライズについては twitteR を使えるようにするためのメモ(version 1.1.9) - 廿TT を参照してください。)

Jtweets <-searchTwitter("ジャニーズ", n=1000) #1000件取得

取得したツイートには、そのツイートがなされた時刻などの情報も含まれています。

縦軸に累積ツイート数、横軸に時刻をとりプロットしました。

library(plyr)
library(dplyr)
library(pipeR)
tim <-ldply(Jtweets,function(x)x$created) #時間を取り出してる

tim <-dplyr::mutate(tim,number=1:1000) %>>%
  dplyr::rename(time=V1) %>>%
  dplyr::mutate(time=rev(time))

library(ggplot2)
theme_set(theme_grey(20,"HiraKakuPro-W3"))
ggplot(tim)+
  geom_step(aes(x=time,y=number),colour="royalblue",size=1.5) +
  xlab("時刻")+ylab("累積ツイート数")

f:id:abrahamcow:20160120052657p:plain

一定の速度を保ったままツイートが伸び続け、時刻 3:40 過ぎに加速した時間帯があることがわかります。

この時間帯にどんな話題が盛り上がっていたのか知るためには、時刻 3:40 過ぎのツイート内容をより詳しく見ていく必要がありますが、今回はめんどうなのでパスします。

ワードカウント(棒グラフ)

ワードカウントは単語を出現頻度順に並べたもので、これはツイートの大まかな内容を推測するのに役立ちます。

解析には RMeCab パッケージを用います。RMeCab パッケージは RMeCab - RとLinuxと... から入手できます。

今回は「2文字以上」の「名詞」に限ってワードカウントを作成し、上位40件のみを図示します。

library(RMeCab)
res1 <- lapply(Jtweets,function(x)RMeCabC(x$text))
res1 <- unlist(res1)

tab1 <-res1[names(res1) == "名詞"& nchar(res1) >= 2] %>>%
  table()
tab1 <- sort(tab1,decreasing = TRUE)
tab2 <-data.frame(word=names(tab1),count=tab1)

ggplot(tab2[1:40,])+
  geom_bar(aes(x=reorder(word,count),y=count),stat="identity") +
  xlab("")+
  coord_flip()

f:id:abrahamcow:20160120053906p:plain

SMAP」「解散」「激怒」などの文字列が並び、SMAPの解散がなにやら騒動になっていることが伺えます。

「メリー」「社長」「喜多川」など、経営陣を意識したらしい単語もみられます。

また「パワハラ」という意外な単語がランクインしていることも印象的でした。

まとめ

ツイッターの盛り上がりをかなり大雑把に要約することはできましたが、これだけではやはりなにを言ってるのかよくわからない部分も多く、解釈には属人的な知識が必要になると感じました。

またツイッターというメディアの特性上、ツイートには短縮URLなどが含まれており、それらが細かいゴミのように集計結果に残ってしまうという課題も見られました。

テキストマイニングってむずかしそうだなあという感想です。