読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

会社を変えるWeb解析の力(河本薫『会社を変える分析の力』感想文)

はじめに

河本薫『会社を変える分析の力』(講談社現代新書)を読んだ。

会社を変える分析の力 (講談社現代新書)

会社を変える分析の力 (講談社現代新書)

手前みそながら、言ってることに自分と共通する部分が多くてびっくりした。

ただぼくには「会社を変える分析の力」はなかった。

河本は分析者に要求する能力の水準が高すぎると思う。

それができてこそはじめてプロフェッショナルだ、ということなんだろうけど、「会社」の側がもうちょっと歩みよってくれよ……とどうしても思ってしまう。

さてそんな愚痴はともかく、ここでは「分析」を「Web解析」に読み替え、本書に沿って自分の考えを再整理して主張する。

「会社員」ってなにやってるのか

「会社を変える」にあたって、そもそも会社員ってなにをしてるのか改めて考えてみよう。

具体的な作業としてホワイトカラーの人たちが何をやっているのか、というイメージはたぶん、実際に努めた人間でもないとわからないだろう。みんな、資料を作っているのだ。ホワイトカラーはみんな、基本的には日々資料を作っている。それは報告書だったり、精算書だったり、企画書だったり、会議資料だったり、日誌だったり、人事評価書だったりする。でも、基本的には全員、何らかの紙を作ってそれをまわしあっている。
 そしてさらには、人の作った資料をもとに、だれか別の人が自分の資料をつくる。そうやって積み重なる資料のピラミッドのてっぺんで、だれかが「意志決定」というやつをするのだ。「よし、コンピュータを買い換えよう」とか、「このプロジェクトに投資しよう」とか。会社の中でのいろんなプロセスというのはだれかがこの、ほんの一行ほどの腹を固めるための、壮大な情報濃縮プロセスだと言ってもいいくらい。

Z-Kan reeman lectures

ポイントは「意思決定」だ。

Web解析担当者も、上司やお客様に資料(社会人用語では資料のことを「ドキュメント」という)を渡す。

その資料はなんらかの形で意思決定に役だっているはずだ。

対偶をとって言うと、意思決定に役立たない資料は資料としての価値を持たない。

ぼくはこのことを「稟議を通すまでが提案です。」という言い方で表現した。「会社に入ったら「はい論破」みたいなことやったって、稟議が通らなければ意味がないわけです。」
時系列データを可視化する折れ線グラフのピリオドの選び方、意外とむずかしい。 - 廿TT

河本はこれを、

  • 見つける力(問題発見力)
  • 解く力(いわゆる分析力)
  • 使わせる力(実行力)

すべて備わってこそ分析プロフェッショナルだ、と表現している。

例えば、データ分析の観点からなにか、現行のものよりよい手法が見つかったとしても、それをやるお金がなかったり、担当者が新しい方法に移行するのをめんどくさがったりする。

そんな場合、河本は実際その手法をやってみせて良さを少しずつ納得させ、さらにシステム化し、担当者が自動で運用できるところまでやれという。

しかしそれ、分析者の寝る時間が勘案されてないよ……。

実際、いま多くの企業は木こりのジレンマにおちいってると思う。

ぼくとしては社内に R を普及させて、業務を効率化して、ドキュメンテーションにちょっとした統計処理を加えて付加価値を与えたりしたかったんだが、挫折した。

エクセル作業で毎日終電じゃあ、みんな「ちょっと R の勉強してみようかな」なんて暇ないし、そもそもエクセルしか使ったことない人たち(しかも自分より年上、上司)に R のよさを説明するのは、ぼくにとってはかなり高度なコミュニケーションスキルが要求される事柄だった。

ページビュー数の推移の集計など、単純作業に RGoogleAnalytics が便利 - 廿TT

みんな目先のルーチンワーク処理する(木を切る)だけでいっぱいいっぱいで、それを改善する(のこぎりを研ぐ)余裕がないのだ。

(これを言い出すと究極的にはデフレ不況が悪いということになるが、それは置くとして)会社の側がもうちょっと歩み寄ってのこぎりを研ぐ時間とお金を社員に与えて欲しいな、とぼくは思う。

「分析モデル」の捉え方

自分はデータ分析をやってるけど分析モデルなんて使ってないなあ、と思っているかもしれません。じつは、どんなデータ分析でも分析モデルを使います。(p.37)

この指摘は重要なものだ。

河本は「分析モデル」の例として、
「ビール出荷量=a×気温+b」(a と b はなんらかの定数)
というものを上げている。

「急に暑くなったからビール売れそうだな。多めに仕入れるか」「今年は冷夏だからビールあんまり売れないかもな」などと考えているとしたら、それはすでに上のような式(線形;リニアな式)を仮定していることになる。

「ビール出荷量」のような予測や説明のターゲットになる量を目的変数、「気温」のような目的変数の変化の要因となる量を説明変数と呼ぶ。

KGIとKPIの違いについてはいろいろな説明がなされていますが、

google:kgi kpi 違い

ぼくとしては、単にKGIは目的変数、KPIは説明変数と捉えるのがわかりやすいと思います。

時系列データを可視化する折れ線グラフのピリオドの選び方、意外とむずかしい。 - 廿TT

Web解析の分野ではよく「目標を定めてKPI設計をして、KPIを見える化することが大事」と言われる。

これは例えば「利益=a×ページビュー数+b」というようなモデルを仮定していることになる。

そしてやはり、「分析モデル」も意思決定の助けにならなくてはいけないから、むやみに複雑にして、解釈不可能なものをつくってはいけない。

河本は「ビッグデータ」とやみくもに大規模なデータを集めても、そこから勝手にイノベーションが生まれてくるわけではない、と強調し、「リトルデータ」(小規模なデータ)にも宝の山が埋まっている述べる。(pp.53-62)

実際、Web解析でサーバーアクセスログを直に触らなければならない場面は少ないだろう。

多くの企業がふつうに使っている「Web解析ツール」で取れるデータにもまだまだ利用しつくされていない面がある。

また、分析モデルを現実の世界を理想化したものと説明し、プラモデルの比喩でこれを語るところ(pp.37-51)などは、ぼくと似ていてびっくりした。

  • ああああ: 母数とはなにか
    • これは2012年の文章なので『会社を変える分析の力』よりも早い。自慢。でもこれは別にぼくの発想がユニークということじゃない。おそらく数理統計とかを勉強したことがある人は、みんなこれに近いイメージを持ってるんじゃないだろうか。

「むずかしい分析がえらいわけではない」≠「むずかしいことは勉強しなくてもいい」

上で「むやみに複雑にしてはならない」「ビッグデータの高度な分析が無条件でえらいわけじゃない」と述べた。

しかしだからといって、「統計学とかのむずかしそうなことは勉強しなくてもいいんだ」とはならない。

たとえば、多変量のデータをモデル化するときは、多重共線性(マルチコ;multicollinearity)というものに注意する必要がある。

マルチコについてすごく大雑把に説明する(ちゃんと知りたい方はググってみてください)と、互いに相関の強い量どうしを説明変数に入れてしまうと、モデルが変なことになっちゃう、という現象だ。

実務Web解析で「多変量解析」なんてやらないなあ。うん。そうだろう。でも「じつは、どんなデータ分析でも分析モデルを使います。」という指摘を思い出そう。

様々な指標を全部載せで、さらに指標どうしで割り算をして新しい指標を作り出してWeb解析レポートを持っていったら、マルチコと同じようなことが起こる。

「こっちは上がってるけど、こっちは下がってて、あ、でもこれとこれは割り算値だから分母は一緒か。あれ? つまりどういうことだ?」
となる。

だからぼくは、Web解析ツールの出してくる指標をそのまま紙にするのではなく、変量どうしの関係を把握することが大事だと思っている。
Google アナリティクスデータKPI設計のための可視化。散布図行列で定点観測するエンゲージメント指標を絞り込む。 - 廿TT

また、例えばSEOSEOというのは、検索エンジンに自分のページをがんがんヒットさせるための施策のこと)なんかは、
「利益=a×SEO予算+b」
みたいな単純な線形の式では表せないだろう。

そういうのは一週間とか(わかんないけど)しばらく時間が立ってからじわじわ効いてくるのがふつうだ。

SEOのためにもう少し予算が欲しいな、と思ったらそこをちゃんと見せてあげないと稟議は通らない。

そのためには時系列データの分析みたいな考え方が必要になってくる。

他にも見せかけの回帰(spurious regression)とか、擬似相関(spurious correlation)とか、注意して欲しいポイントはいくつかあるが、ここでは省く。

統計学とか〇〇学とか「確率分布」とかは勉強してるときにはややこしくて、話を複雑にしているように感じられるかもしれないが、それを理解した後ではむしろ、物事をシンプルに要約できるようになる(場合もある)。

統計は意思決定を丸投げできるほど便利ではない

「意思決定」がポイントだと強調してきたが、残念ながら統計手法は意思決定を完遂できるほど便利ではない。

河本の言う「KKD」(経験と勘と度胸)は大事だ。

「謙虚になろう」(pp.156-159)

ぼくが思う要注意はワード「定量的」だ。

定量的が定性的より無条件でえらいかのような言い方をする人がいる。

「A/Bテスト、いままでは経験と勘にたよっていましたが、統計学的仮説検定を使うことによって定量的に判断できるのです」

こういうこというやつはたいてい実際たいして統計学勉強してないのだ。教科書の最初の方に書いてある統計手法をただそのまま持ってきてるだけだ。根拠はおれの霊感だ。

統計手法をブラック・ボックスとしてただただ適用するのでなく、経験と勘と度胸と分析の一体化した意思決定を目指そう。

ちなみにぼくなりにそれを目指したものの一例が、
A/Bテスト、多変量テストに必要な期間を見積もる方法の紹介 - 廿TT
だ。

Web広告を実運用してる人はCVRの数パーセントの変動がどの程度のインパクトか、経験的にわかっているだろう。

そこで区間推定という統計手法でその変動のリスクを視覚化して、「A/Bテスト」による施策判断の助けにしてもらおうという狙い。

定性的評価と定量的評価の使いわけ

私の経験では、マーケティング系や計画系の意思決定は、KKDに対して優位性を持つ場合が多い。しかしオペレーション系の意思決定は、状況変化に応じた臨機応変な判断が求められるため、(p.94)

これがどういう経験に基づく指摘なのかはもうちょっと詳しく聞いてみたいけど、これはぼくの実感とも一致する。

コンピューターに猫の写真を見せて「あ、猫だ」と認識させるのはけっこうむずかしい。機械学習とか人口知能の高度な手法だ。

人工知能とか機械学習の研究者は人間の感覚より優れたものを作ろうというよりはむしろ、人間の感覚に近づけるようにがんばってる。

たとえば、どういうコンテンツがうけるか判断するのは、統計手法の応用ではむずかしいだろう。KKDのほうが強い。

一方マーケティング系や計画系、特にパフォーマンス型広告の運用なんかは、ルーチンワーク化はしているが自動化まではされていなかったりするので、数理計画法とか応用最適化、OR(オペレーションズ・リサーチ)などの出番が多いんじゃないだろうか。

いや、それをやってるのがフリーク・アウト(株式会社FreakOut)とかなのかな? よく知らないけど。

(あといまのマーケティング理論っぽいものはぼくからみると突っ込みたいところがけっこうある。

など。)

余談だが人間にはおそらく二種類の「勘」がある。
経験に基づく勘と、そもそも進化の過程で身につけた生まれ持った直観だ。

ぼくは「進化の仮定で身につけた直観」のほうを、すごく大事だと思っている。

こどもは分数を習う前から一小節に4分音符と8分音符を配置して太鼓を叩いたりできる。

「二階微分した導関数が不連続だから加速度が不連続で F=ma が不連続だな」なんてことを考えなくても、「あ、ここ急カーブだから減速しないと危ないな」と感覚でわかる。

それらは人間が進化の仮定で身につけた、生まれ持った直観だ。

数学を学ぶことは自分の脳の働きを再発見する営みだと思っている。

だからグラフ描いてデータを図示してみて、「ん? ここなんか気になるな」となんとなーく感じたら、それについて改めて考えてみると新たな発見があると思う。

ヴィジュアル化の重要性、懐疑的になることの重要性などは『会社を変える分析の力』3章4節(pp.173-)でも指摘されている。

「本当にわかってる人はむずかしいことも分かりやすく説明できる」問題


難解な分析専門用語を文章中に使う人がいます。そういう人に「専門用語を使わずに平易な言葉で書いて」と指示すると、「専門用語を使わないと正しく表現できません」と答えます。私から言えば、その人は、理解度が低いので専門用語で誤魔化さざるを得ないのです。(pp.195-196)

ぼくから言えば、これはちょっと分析者にきびしすぎるんじゃないかと思う。

なるべく専門用語をつかわないようにして説明するとどうしてもあいまいさが残る。あやまって理解される可能性も高まる。これはしょうがないと思う。

最終的には説明を聞く側が理解しようと努力してくれないとどうしようもない。

でも、ぼくは言葉づかいにも職業倫理があると思っている。

  • なるべく厳密に、正確に伝える
  • なるべくわかりやすく、多くの人に伝える

これを両立させるのむずかしい職人技だが、少なくとも分析者はこのどちらかでバランスを取るようにはすべきだ。

例えば、
「※リーチ%…インターネット利用人口を母数とした利用者の割合」
Facebookの利用者数が1,000万人を突破、ネットユーザーの17%が利用 | ニュースリリース | ニールセン株式会社
この説明はだめだ。

「母数」という確率論や統計学の専門用語を使って、しかも使い方まちがってる。「分母」っていう小学校で習うもっとかんたんな言葉があるのに。

まあ世の中にはかんたんな言葉よりも派手な業界用語の乱舞する説明が好きな人もいて(かんたんな言葉を使われるとバカにされたと思うのかな?)場合によっていろいろ苦労はすると思う。

Web解析のためにおすすめの統計手法

データ分析という言葉はデータで問題を解決すること。その意味は非常に多用で、一つの分析手法にこだわらないほうがいい、と河本は述べ、株式会社オージス総研の表を引用している(pp.18-20)。

f:id:abrahamcow:20150114152624p:plain
データサイエンス | 株式会社オージス総研

その指摘は正しいが、そうなってくると、なにから勉強していいかわからないだろう。

そこで、ぼくがおすすめするのは高校数学だ。

これは皮肉や冗談じゃない。


ぼくは高校の数学や理科の教科書と中学の英語の教科書、ついでに家庭科の教科書は一生とっておいたほうがいいと思っている。
(国語とか社会も大事だけど、個人的にいまの国語や歴史の教科書には不満があるので)

あとできれば最小二乗法かな。線形単回帰分析だけでも知っとくと、上述の「分析モデル」のイメージがつかめる。

できるビジネスマンっぽい人がよく口にする「最適化」って高校でならう微分積分の応用だったりする。

高校数学レベルのことに多少触れていれば、自分で問題解けなくても「これこれこういう制約のもとでこれを最大化したいんだけど」と、より詳しい人に相談できる。

そうやって指事を出してもらえれば、専門家も動きやすい。

Web担当者がWeb解析を使いこなす方法

最後に、これは河本薫『会社を変える分析の力』から離れたぼくの意見だ。

定例会のときはWeb担当者の人、そんなこと言わないけど会議終わってタバコ吸ってるときとかによく言われたのが、
「Web解析って解析ツールのデータを紙にしてるだけだね」
「数字の上がった下がったは見ればわかるのよ。でもそんな細かい数字ばっか報告されてもねえ」
みたいなことだ。

Web解析コンサルタントって、往々にしてデータ分析の専門家ではなく、Web解析ツールのサポート屋さんだ。

もちろんツールの保守運用は大事な仕事なんだけど、それと分析がまだ未分化だったりする。

だから「Web解析コンサルタント」っていっても、Web解析ツールの出した数字をそのまま正確に報告しよう、というモチベーションで動いていたりする。

そのへんを意識して書いてるのが、
Google アナリティクス カテゴリーの記事一覧 - 廿TT
です。ご笑覧ください。