廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

メールマガジンの有効性:Web 系企業が仮説検定を有効に活用した事例の紹介

事例の紹介

私は A/Bテスト カテゴリーの記事一覧 - 廿TT 内に見られる記事において、「Web 系企業のA/Bテストに仮説検定は向かない」という主張を繰り返し述べて来ました。

しかし、CiNii 論文 -  アクセス遷移の傾向に関する分析とそこから得られる知見について(スタディグループセッション「データカフェ」:平成23年度データ解析コンペティション報告) という論文では、メールマガジン(以下メルマガと略記)というインターネットマーケティング上の施策の有効性について、仮説検定を使って検証し、「メルマガは有効である」という旨のことを述べています。

(ただし論文の閲覧は有料です。)

日本計算機統計学会大会論文集の、
『スタディグループセッション「データカフェ」:平成23年度データ解析コンペティション報告』
というのがどのようなものかと申しますと、株式会社ゴルフダイジェスト・オンライン様よりデータを提供頂き、日本計算機統計学会という学会で、そのデータを探索的に分析した結果をコンペ形式で報告しあい、後に改めて論文という形でまとめたものです。

査読等はそれほど厳しくありませんが、ちゃんとした学会の発行している雑誌に、論文として掲載されたものです。

なんでぼくがこの論文に詳しいかというとそもそも
「仮説検定でメルマガが有効かどうか、検証しよう!」
と言い出したのが、ぼくだからです。

共著者としてぼくの名前も上がっています。

ここでおこなったのはECサイトの利用者を、

  • メルマガ購読会員
  • メルマガ未登録の会員

の 2群に分け、

  • 帰無仮説:両群の平均商品購入に差がない
  • 対立仮説:両群の平均商品購入に差がある

という伝統的な統計的帰無仮説検定です。

平均商品購入数の検定をやったのか、平均商品購入率の検定をやったのかは忘れました。
t 検定をやったのか、カイ二乗検定をやったのかは忘れました。

(ちなみにこの論文のおもしろいところは、サイト利用者のアクセス遷移にマルコフ性を仮定してモデル化し、商品購入に至ったセッションと、至らなかったセッションの差分をとり、両者のサイト回遊傾向に差があるかを見た部分です。仮説検定はおまけみたいなものです。)

仮説検定が向くケース、向かないケース

そのように、かつてはWeb系企業のアクセス解析データを用いて、仮説検定をやっていた私がなぜ、
「Web 系企業のA/Bテストに仮説検定は向かない」
と主張するようになったのか。

それは「A/Bテスト」というものが実務的には、「いろいろやってみて良さそうなのを選ぼう」というモチベーションで行われるからです。

ほら、Webサービスとかってけっこうころころインターフェイスが変わるでしょう。あれが「A/Bテスト」です。

このような場合、多重比較というものを考慮しなければなりません。なんどもなんども多重比較を繰り返した場合、有意水準インフレーション的に増加しつづけることになります。

これは仮説検定に向きません。

また「ちょっとでも良さそうなのを選ぼう」というモチベーションだった場合、5%水準で有意差がでていなくても、ただ単に数値比較して良さそうなのを選べば済みます。

ケーススタディ

モチベーションが「そもそもメルマガって効果あるの? ちゃんと知っときたい」というものだったら仮説検定をご活用ください。

モチベーションが「メルマガの件名とかとにかくいろいろ変えてみて、PDCAサイクルを回して良さそうなのを選ぼう」だった場合、仮説検定は向きません。

ふつうに棒グラフを描いて比較し、良いやつを選んでいったほうがはるかに有益です。

以上です。