読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

A/Bテスト、多変量テストの図示(Excel 版)

A/Bテスト Excel

データヴィジュアライゼーション via Excel

 A/Bテスト、多変量テストの図示 - 廿TT
 ↑このエントリのエクセル版です。

 A/Bテスト、多変量テストの結果を可視化するエクセルシートを作りました。
 よろしければ使ってください。

→ http://zisatsu.web.fc2.com/monooki/excel/errorbar2.xlsx

f:id:abrahamcow:20140625002708p:plain
 分子分母にそれぞれコンバージョン数クリック数とか、クリック数インプレッション数とかを入れてください。

 割合と信頼区間のエラーバー付きグラフを出力します。
正規分布による近似信頼区間です。)
(→A/B テストの周辺(中心?)で,御託を並べる - 裏 RjpWikiより、近似精度が悪いという指摘を頂いたので、F分布によるより正確な信頼区間変えました。さいしょのやつも悪い例として以下に残しておきます。
http://zisatsu.web.fc2.com/monooki/excel/errorbar.xlsx(6/28)
先方の他のご指摘は誤解に基づくものと思われます。
裏 RjpWiki さん、勇み足じゃないですか? - 廿TT
にて、大人げなく逐一反論しました。)

 信頼水準(信頼区間の幅)は変更できます。

f:id:abrahamcow:20140625015113p:plain
 赤枠の中は自由入力、他は数式が入ってるのでいじらないでください。

 時系列版はこんな感じです。
f:id:abrahamcow:20140628153749p:plain

 見方としてはこんな感じ。
f:id:abrahamcow:20140625024649p:plain

 これはこのブログのアクセス解析から持ってきたデータなんですが、1月は A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む) - 廿TT という記事が若干バズったので CVR が伸びたのでしょう。

 行を追加、削除するときはお手数ですがこのように、
f:id:abrahamcow:20140625025044p:plain
分子、分母に合わせてカチカチやって編集して、
f:id:abrahamcow:20140625025200p:plain
グラフに入力するセルを選択し直して、
f:id:abrahamcow:20140625025410p:plain
「誤差範囲の書式設定」から
f:id:abrahamcow:20140625025419p:plain
「ユーザー設定の誤差範囲」をクリックし、
f:id:abrahamcow:20140625025443p:plain
「誤差範囲」のところも選択し直してください。

右のほうにある「計算用」のセルのところも、項目数に合わせてドラッグして増やしてください。
f:id:abrahamcow:20140628153659p:plain

参考にしたもの:

入門・演習 数理統計

入門・演習 数理統計

統計WEB | 統計Tips | Excel によるエラーバー(誤差範囲)付き棒グラフの作り方
統計WEB | 統計Tips | Excel によるエラーバー(高低線)付き折れ線グラフの作り方

ぼくが信頼区間の図示を推奨する理由

 A/Bテスト、多変量テストの図示 - 廿TTと重複する内容になりますが、ここではなるべく簡潔に説明し直します。

 A/Bテストに統計的仮説検定を導入しよう! と推奨されている記事はいくつかありますが、これらにはまちがいが書いてあります。

 例えば、「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない - 銀座で働くデータサイエンティストのブログ では仮説検定で有意にならなかった場合、

では、どうすれば良いのか?


結論から言うと、「構わず強行する」か「ある程度証拠がたまるまで待つ」かの二択です。

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない - 銀座で働くデータサイエンティストのブログ

とされていますが、だめです。

 これは仮説検定の枠組みの中で考えると、有意水準が保たれていないからダメ、ということなんですが、そういうややこしい話は抜きにしても、

  • 仮説検定で有意→GOサイン
  • 有意でない→GOサイン or もう一回仮説検定

このフローチャートになんか意味あるの? と考えればなぜダメなのかわかると思います。

 有意にならなかったら有意になるまで待つの? だったら、その待つ時間無駄だから最初っから強行してください。

 この記事を書いたオザキ氏はその後、そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 銀座で働くデータサイエンティストのブログ で、統計学の教科書を引用し、「これを読んでもポカーンとしてしまう人にはもう既に仮説検定は無理ゲーではないかと。」と述べ、

(ぼくは「これを読んでもポカーンとしてしまう人にはもう既に仮説検定は無理ゲーではないかと。」とかいう書き方が、統計学を知らない人をバカにしてるように思えて好きになれない。だれだって最初はわからなくって当然だろうに……。まあそれはともかく、)

続けて「でも可能な限り統計学的検定は使うべき」その理由は仮説検定なら科学的、機械的に判断を自動化できるから……というようなことを書いてるんですが、ぼくには言い訳にしか見えません。

 「自動的かつ機械的に判定して」もなにも、「ある程度証拠がたまるまで待つ」とか、どこをどうすれば自動的かつ機械的にできるのでしょうか? そもそもオザキ氏の推奨する「検定」では、有意水準が保たれていないので、仮説検定の枠組みの中で見てもまちがっています。まちがった基準をもとに自動化しちゃだめです。

 さらには、「p値の高い低いぐらいしか分からないような人が無理に使うのはかえって混乱のもとになるだけかもしれません」と言いつつ一方で、「『有意に動いたor動かない』だけをインジケータにして見られるようにしておけば、いちいち100個全てのプロットに目を通さなくても良いわけです」とか書いてるわけですから、この記事の中だけで見ても矛盾しています。


 さてオザキ氏の話は以上で終わりにして、ABテストを検定する - Hive Color では

パターンが2パターンより多くなると多変量解析とかを使うことになります。手計算するなら、けっこうややこしい計算が必要になるので、まずは2パターンずつ試していくのがいいと思います。

ABテストを検定する - Hive Color

とありますが、これは話が逆です。
 2パターンより多くなると、2パターンのときの検定が使えなくなるから、わざわざややこしい多変量解析っていうのがあるのです。


 また、A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog は、明確に間違いとまでは言い切れないものの、有意水準だとかの説明をいっさい述べずにいきなり「答えは以下となる」と述べています。

 このようなやり方に実用性があるとは思えません。

 だって、Web系施策のA/Bテストの場合、「有意にならなかったらなにもしない」という選択肢はありえないでしょう。
上の記事では「赤リンクにしたことに効果があったと判定できるだろうか。」と問いかけていますが、効果があったと言えなかったら、リンクをどうするのでしょうか。
(これが医学、薬学分野の話だったら、効果のない治療でお金をとること自体が詐欺になってしまうので、「有意にならなかったらなにもしない」という選択肢がありえます。)

 ぼくは、「Web系施策のA/Bテスト、多変量テストの判断に仮説検定は向かない」と断定していいと思います。

権威主義的アプローチ

 誤用されがちな仮説検定の代わりに区間推定を使え、という主張はぼくだけが述べているわけではありません。

 例えば、『伝えるための心理統計』では下図のような信頼区間のエラーバー付き棒グラフを推奨し(p.146)、
f:id:abrahamcow:20140625041212j:plain
「第4章 信頼区間:区間推定と図の力」で、丸々1章をさき、その有効性を説明しています。

伝えるための心理統計: 効果量・信頼区間・検定力

伝えるための心理統計: 効果量・信頼区間・検定力

 そして、そのやり方が Cohen (1994);pdf 以降、心理統計のスタンダードになりつつあるものとしています。

 信頼区間のエラーバー、胸を張って使いましょう。

 ※ただし棒グラフのベースラインはゼロにしてください。
比ではなく間隔を表したいときは(Clevelandの)ドットプロットを使おう - 廿TT

私怨カムバック

 ぼくは今年の1月までアイレップっていう広告代理店に務めてたんだけど、そこでもA/Bテストの判定に仮説検定を使いましょうって推奨して、エクセルシートを配ってる先輩がいたんです、実は。

 ぼくはその先輩に、仮説検定あんまり良くないんじゃないですかね、棒グラフ+信頼区間のエラーバーでいいんじゃないですかねって言ったんだけど、却下されました。

 理由は、「信頼区間なんて難しすぎるから、お客様に伝わらない」というようなことでした。

 でも、ぼくの前のエントリに対して「色々と統計学への誤解が積み重なっており、さらにデータが仮説を裏付けないと言う事実に拒絶反応を示していた。」とまで言った(具体的にどこを指してそう言ったんだよ、こら) UNCORRELATED 先生は「分かりやすさと見栄えの観点から」「区間推定を利用するのは悪い選択ではないとは思うが、」って逆の主張をしてるんですよね。
統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

 なにがわかりやすいかって、人によるんじゃないかな。ぼくもエクセルシート配るんで、ジャッジしてください、お客様。

→ http://zisatsu.web.fc2.com/monooki/excel/errorbar2.xlsx