廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

二元配置直交表:リスティング広告のTDとLPをマッチさせるA/Bテストのために

本記事の主張

今現在実務で行われている「A/Bテスト」は統計的仮説検定の意味ではない。

統計ソフトを使えば仮説検定自体は簡単に行えるが、「A/Bテスト」の施策判断に仮説検定は不向きである。


用語について

リスティング広告

リスティング広告とは主に検索連動型広告を指す語です。

f:id:abrahamcow:20141214073125p:plain
こういうやつ。

f:id:abrahamcow:20141214073136p:plain
Webサイト内にあるこういうやつもリスティング広告にふくまれます。

TDとLP

  • TD(タイトル&ディスクリプション)とは、広告文のタイトルと説明文のことです。
  • LP(ランディングページ)とは、ユーザーがサイトに訪問する入口となるページを指す語です。今回は「Web広告のリンク先ページ」という意味に限定して使用します。

二元配置直交表

問題

ここでは阿部圭司「リスティング広告 成功の法則」(pp.104-106)を参照しながら、統計的な実験計画の考えかたを説明します。

統計的仮説検定や実験計画法なんかをかじったことがある方は、まちがい探しのつもりで読んでみてください。

リスティング広告 成功の法則」では以下のような説明がなされます。

  1. A/Bテストを行う際はできるだけ広告文を均等配分するように設定しましょう(※1)
  2. 広告テキストのA/Bテストを繰り返し(※2)良い広告文ができたらリンク先URLでのテストも行いましょう(※3)
  3. 「検索キーワード」というニーズに対し「広告文」という回答があり、受け皿として「ランディングページ」があります。すべてがかみ合ったとき、はじめてコンバージョン(成果)が発生します(※4)

回答

※1:均等に配分することとランダムに配分することは違いますのでご注意ください。検索連動型広告の均等配分機能は「予算を均等に消化する」というモチベーションで作られたものなので、ランダムとは違います。

ランダムと均等の違い:リスティング広告のA/Bテストのために - 廿TT


※2:テストを繰り返す場合、仮説検定では多重比較というものを考慮する必要があります。粗く言うと、サイコロを何回も振り直せばたまにはゾロ目もでますが、「ゾロ目」という現象が珍しいからといって特に意味はないということです。

メールマガジンの有効性:Web 系企業が仮説検定を有効に活用した事例の紹介 - 廿TT


※3:ここで「A/Bテスト」では、広告文でテストをしてから、リンク先URLのテストを行うという順序があることに注意してください。なぜこのような順序性があるのかというと、(憶測ですが)広告文を変えるのは比較的簡単で受け皿であるLPをつくるのは比較的むずかしいから、まず簡単なことをやってから、むずかしいLPはちょっとずつ変えていく、ということだと思います。


※4:LPとTDがマッチしたとき、はじめて成果に結びつく、という指摘はまったく正しいものです。このような掛け合わせの効果のことを、統計学では「交互作用」とよびます。ですので、もし「A/Bテスト」で統計的仮説検定を行うのであれば、LPとTDのテストは同時に行う必要があります。

二元配置直交表

LPとTDのテストを同時に行うというのはどういう意味か。大雑把に説明します。

TD1、TD2、と2種類のTDを用意します。

またLP1、LP2、と2種類のLPを用意します。

LP1 LP2
TD1 1 2
TD2 3 4

2 × 2= 4 種類の組み合わせが完成します。

この 4 種類の組み合わせに対して各 2 回ずつ実験を行うことにします。

すると、4 × 2 = 8 回の実験を行う必要があります。

LP1 LP2
TD1 1 5
2 6
TD2 3 7
4 8

しかし、このような実験に対して伝統的な仮説検定を行う際は、上表のように 1、2、3、4、5、6、7、8 と規則正しい順番で実験を行うのではなく、順番をシャッフルしてランダムにする必要があります。

なぜかというと、規則正しく行ってしまうと、LPやTDのおかげで成果が出たのか、朝昼晩の時間帯などのせいで成果が出たのか、わからなくなってしまうからです。

ランダムと均等の違い:リスティング広告のA/Bテストのために - 廿TT では、このことを「みそ汁のあじ味をするときは、鍋の中のみそ汁をよくかき混ぜてから」と例えました。

つまり、下のようにデタラメな順番で行う必要があるのです。

LP1 LP2
TD1 8 5
3 4
TD2 6 2
7 1

ちなみに統計ソフト R ではデタラメな順番(乱数)をかんたんに発生させることができます。

> matrix(sample(1:8),ncol=2) #1回目
     [,1] [,2]
[1,]    3    2
[2,]    1    8
[3,]    5    4
[4,]    6    7

> matrix(sample(1:8),ncol=2) #2回目
     [,1] [,2]
[1,]    4    5
[2,]    7    8
[3,]    3    2
[4,]    6    1

#乱数なので毎回結果が変わる
#サイコロを振り直すようなもの

PDCAサイクル≠実験計画

以上より伝統的な仮説検定と「A/Bテスト」の違いがなんとなくおわかり頂けたかと思います。

「仮説を立て、実験計画を策定し、仮説検定を行う」という現在の統計学を体系立てた功労者であるフィッシャー(ロナルド・フィッシャー - Wikipedia)は、「実験を行った後から統計学者に分析を依頼するのは、死んでから医者にかかるようなものだ。死因を指摘することはできても、生き返らせることはできない」というようなことを述べました。

また、「仮説を立て、実験計画を策定し、仮説検定を行う」という確証的データ解析だけでなく、データから傾向を探りだす探索的データ解析も重要だ、と指摘したテューキー(ジョン・テューキー - Wikipedia)は、「間違ったことを正確にやるよりは、正しいことを雑にやれ」というようなことを述べました。

(これらの引用は記憶に頼った不正確なものですが、おおむねニュアンスは合ってると思います。)

A/BテストでPDCAサイクルを回し、あれこれ試行錯誤していいものを探すという行為は、確証的というよりは探索的なものです。

探索的なデータ解析のための有用なツールを、あなたはすでに知っています。

棒グラフです。

棒グラフは単なるプレゼン資料のかざりではありません。われわれは棒グラフを見るとき、棒を絵画のように鑑賞しているわけでなく、棒どうしの比の関係を把握するという、統計的な思考を行っているのです。


原点がゼロでないグラフ、2軸のグラフ - 廿TT

あれこれデータをいじくり回してむりやり「有意」な差を引き出すようなことを行ってしまうと、結局は統計的でもなく仮説の検定もできていない、やってみただけの仮説検定になってしまいます。

それよりはむしろLP×TDの組み合わせで棒グラフを描き、数値比較してよいLP、TDを選ぶことのほうがはるかに有益だと、私は考えます。

参考文献

品質管理のための統計手法 (日経文庫)

品質管理のための統計手法 (日経文庫)

Google AdWords&Yahoo!リスティング広告対応 リスティング広告 成功の法則

Google AdWords&Yahoo!リスティング広告対応 リスティング広告 成功の法則

ちなみにネット上の文献には以下のようなものがある。

→このスライドはちゃんとしてそうだけど、正直これを読んだだけでは具体的にどんな計算をやってるのかよくわからない。

「猫」で説明します。A/Bテスト・多変量テスト | アトリエ | データアーティスト株式会社→これは実験計画とかわかってる感じあるけど、色ちがいっていうカテゴリカル変数は水準の違いと考えていいのか? 最終的に直交させたの全部集計するならいっかい因子ごとに集計した意味はあるのか? とちょっと疑問が残る。


「よくわからない」「疑問が残る」というのはぼくの理解が追いついてないという意味で、皮肉や反語ではありません。