読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む)

本記事の編集方針

※この記事に興味をもたれた方は、
A/Bテスト カテゴリーの記事一覧 - 廿TT
も、必要に応じてご覧いただければと思います。

本記事はもともとは、「A/Bテストの数理」への批判:「有意」とはなにか の続き的なエントリでした。

しかし、予想外に反響があったため Request for Comments(ご意見求む)の精神で、随時更新している部分もあります。

ただし、ベースとなる主張、Web系施策のA/Bテストに、仮説検定は向かないという部分は変化していません。

もしぼくの考えが変わり、「やっぱ仮説検定、いいかも」となった場合、本記事の存在価値はほぼ消滅します。

そのようなことがあれば、ページ最上部に「考えが変わりました」と明記します。

また、他の修正箇所も区別して明記し、差分がわかるようにします。

ただし細かい言い回しや、誤字脱字等はだまって修正します。

目次:

  1. そもそもA/Bテストとはなにか
  2. コメントに対するお答えより:A/Bテストで注意すべきこと
  3. 仮説検定、しなくていいんじゃない?
  4. 反響:質問や議論など
  5. 更新履歴

1. そもそもA/Bテストとはなにか

まずA/Bテストという言葉は、単に「AとBをくらべます」という意味しかないことに注意してください。

nabokov7; rehash : A/Bテストで出来ること、出来ないこと では、A/Bテストを以下の 2通りに分け、整理しています。

  1. 導入したい新機能/変更があるが、それが既存のユーザエクスペリエンスを損ねることがないか確認したい。(→ A/Bテストの結果が悪くなければ基本GO)
  2. 既存の枠にとらわれず、さまざまな選択肢をユーザに与えてみて、支持される方向性を発見したい。(→A/Bテストの結果が特に良い場合だけGO)
nabokov7; rehash : A/Bテストで出来ること、出来ないこと

これは重要な指摘です。

1 のA/Bテストを考えて見ます。

たとえば、
A:ダイエットコーラの味
B:ふつうのコーラ
をくらべどちらが美味しいかアンケートを取ったとします。

「Aのダイエットコーラのほうが美味しい」と答えた人が若干多かったのですが、仮説検定をした結果、有意差はみられませんでした。

このとき、ダイエットコーラの販売は控えたほうがいいのでしょうか? いいえ。違います。

コーラAとコーラBの味に大差ないならば、コーラAは「ダイエットに向いてる」という導入したい新機能/変更を備え、それが「美味しさ」というユーザーエクスペリエンスを損なうことなく導入できるのです。むしろ胸を張ってダイエットコーラを販売したいくらいです。

しかし、ここで注意が必要です、仮説検定では、「味に大差ない」ということを証明できていません。

仮説検定は「味に大差ない」という帰無仮説のもとに行われたものです。
仮説検定では帰無仮説を棄却することはできても、採択することはできないのです。
「帰無仮説を採択」? | Okumura's Blog
このことを詳しく説明した資料としては、
「検出限界」とは何か?  — 統計学的仮説検定超入門  田崎晴明(pdf)
をおすすめします。


次に 2 のA/Bテストを考えて見ます。

「既存の枠にとらわれず、さまざまな選択肢をユーザに与えてみて、支持される方向性を発見したい。」

はい。これはPDCAサイクルを回して、次々にいろんなA/Bテストを行っていくということです。

これを次々に仮説検定を行っていく、と読み替えてみてください。

めちゃくちゃ多重比較になっていきます。有意水準が保たれていません。

その有意水準とか、多重比較とかってどういうこと? と思った方は、次の項目「A/Bテストで注意すべきこと」を読んで頂ければと思います。

パターン 1 のA/Bテストにせよ、パターン 2 のA/Bテストにせよ、Web系施策のA/Bテストに、仮説検定は向かないのです。

2. コメントに対するお答えより:A/Bテストで注意すべきこと

有意水準 20% はナシ - 裏 RjpWiki
↑これは非常にありがたいコメントで、こっから話をはじめることができるのです。

コメントその1

また,有意水準 5% は,「統計学における慣例」なので,特に理由がない場合は 5% を採用するのが無難。「有意水準をちゃんと書いた上で有意差ありかなしかを言え」というのはごもっとも。しかし,「有意水準 x% のもとで ●● 検定を行ったところ有意な差があった」などの陳述は,統計検定を知らない人に余計な抵抗感を与えるであろう。5% 有意水準が慣例であるという前提で,「統計学的に意味のある差だった」と述べるのは,許されると思う。

有意水準 20% はナシ - 裏 RjpWiki

そうでしょうか? ぼくは「統計検定を知らない人に」有意水準の説明すらせずに、形式的にむりやり統計的仮説検定をやらせるのはだめだと思います。
その場合、想定されるのは以下のようなパターンです。


パターン1:「あーまだ有意差出てないな〜。有意差出るまで様子見るか〜」
だめです。
しかし現にこの記事では、それに近い態度が推奨されています。

では、どうすれば良いのか?


結論から言うと、「構わず強行する」か「ある程度証拠がたまるまで待つ」かの二択です。

「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない - 銀座で働くデータサイエンティストのブログ

これがなぜだめかというと、「有意にならなかったら有意になるまで待つ」をやってたらなんでも有意にできちゃうからです。

この辺を参考にしてください。

 しかし本当は、5%水準の検定を20回やったとすると、これらがそれぞれを独立しているとすれば、20回(20年間)で「少なくとも1回以上の間違った主張をしてしまう確率」は,65%近くにもなる。
 つまり1度も間違えない確率は95%(=0.95)の20乗(= 0.358485922)なので、それを1から引けば、少なくとも1度は「実際は全く差がないのに、差があると」間違えて判断する確率は、65%近くにもなるのである。

サヨナラ検定、グッバイ統計的有意性/統計を使うつもりなら必読の論文はこれ 読書猿Classic: between / beyond readers

※ただし上記事には誤解を招く記述もあります。

こんにちは検定、ハロー統計的有意性/読書猿くるぶしさんの書き方は誤解を招く - 廿TT


パターン2:「AとBでテストやって、つぎはBとCでテストやって……」

だめです。

この辺を参考にしてください。

多重比較と data dredging

7個の変数についてデータを収集しました。それらの二つずつについて相関係数を調べ, 7C2 = 21 個の相関係数を得ました。うち一つが統計的に有意でした。これで論文を書いていいでしょうか? ―― 駄目です。21個の中で偶然に5%水準で有意になる相関係数は,期待値として1個以上あります。こういうのを多重比較(multiple comparisons)といって,注意が必要です。

ポーカーをやったらツーペアが出ました。ツーペアが出る確率は約 1/21 なので,5%水準で有意です(何が???)。

血液型と性格の関係を調べるために,A/B/AB/O,男/女,いろいろな性格検査の項目をごちゃごちゃやっているうちに,いくつか統計的に有意な結果が見つかりました。 ―― こういうのを data dredging(データの浚渫(しゅんせつ))といいます。いろいろやっていれば,20回に1回は有意な結果が出るものです。

検定と区間推定

A, B, Cの3つの標本があるとき、AとB、BとC、AとCの、3つにおいてt検定を行った場合、「少なくとも1つの組み合わせに、差がでる確率」は、1から「3つの組み合わせすべてに差がでない確率」をひいたものになることが分かります。

「差がでない確率」は、全体の確率(1)から差がでる確率をひいたものになります。ここでは、差が出る確率を5%(0.05)としましょう。そうすると、差がでない確率は、1-0.05 となります。

そうすると「少なくとも1つの組み合わせに、差がでる確率」は次のようになります。

(中略)

これを計算すると、

= 1 - (0.95×0.95×0.95)
= 1 - 0.857 
= 0.143

となります。

「少なくとも1つの組み合わせに、差がでる確率」は、0.143になり、1回だけのときの確率(0.05)に比べて、差がでる確率が高くなります。つまり、0.05から比べると3倍弱、確率が高くなります。

つまり、比較する回数が増えれば増えるほど、実際は差がないのに、差があるとされる確率が増えてしまうことになります。

これが、t検定は3つ以上の標本間の差の検定には使えないという理由です。

6.1 なぜt検定が使えないか


パターン3:「色はAがいい。かつフォントはBがいい。だからそれ組み合わせたら最強」

だめです。独立じゃないからかけ算できないです。

コメントその2

有意水準は,リスク・ベネフィットの観点を考慮するというのはあたりまえなんですけど,どんな場合でも天気予報のリスク・ベネフィットが当てはまるという認識はおかしい。有意水準は別の見方からいう「危険率」または「第一種の過誤(αエラー)」。これを称して,「あわてん坊のアルファ」ともいう。20%もの危険率を受容していると,とんでもないことになることも多くなるのだけど??

有意水準 20% はナシ - 裏 RjpWiki

まず、どんな場合でも、とは言ってません。

「比率の差を比較するA/Bテストの類いは,以下のような単純なコイン投げの数学問題と同型である。」
(中略)
というのがだいぶ大雑把な仮定でして、赤リンクの効果なんて流行りすたりとか、サイトの構造とか、季節とかによってかわるだろうし、ここでそんなに厳密にやってもしょうがないと思います。

「A/Bテストの数理」への批判:「有意」とはなにか - 廿TT

です。

次に、「とんでもないことになる」というのが、考えにくくないですか?
赤リンクのほうが少しでもクリックされやすそうなら、赤リンクにしない理由がないじゃない、と僕は思うけど。

あと余談ですが『「第一種の過誤(αエラー)」。これを称して,「あわてん坊のアルファ」ともいう。』の一文はありがたいですね。

第一種の過誤(Type I error)、第二種の過誤(Type II error)というのは味も素っ気もないネーミングなので、

  • 第一種は「あわてもの」。「あわてもの」だからあせって棄却しちゃう。「あわてもの」だから一等賞だから第一種。その確率は「あわてもの」の「あ」をとってαで表すことが多い。
  • 第二種は「ぼんやりもの」。「ぼんやりもの」だからぼんやりして見逃しちゃう。「ぼんやりもの」だから二番手だから第二種。その確率は「ぼんやりもの」の「ぼ」をとってβで表すことが多い。

とこじつけるとおぼえやすいです。

コメントその3

更にいえば,リスク・ベネフィットの判断は極端にいえば個人レベルで差があるので,画一的な有意水準を設けて有意だの有意でないだの言っても意味がない。そのためにはどうするか。答えは,常に P 値を表記するということである。日本ではいまでも,「5%有意」あるいは,星祭りでもないのに「*」だの「**」を併記して自己満足に浸っている(ちなみに,有意傾向はR でも '.' で表されたりすることもある)。欧米諸国では,ずっと前から P 値を表記するのが標準である。

有意水準 20% はナシ - 裏 RjpWiki

ええ、だから p 値の説明を僕なりにがんばって書きました。(はじめに のところ)

ちなみに、「欧米諸国では」とありますが、日本でも p 値くらい書きます。
むしろ大学の宿題で p 値書かなかったら「え? なんで p 値書かないの?」と不思議がられる(※ぼくの経験なので一般的に日本全国でそうなのかは知らない)。

欧米諸国から日本が遅れてるのではなく、アカデミズムの世界と商売の世界が分離しちゃってるんだと思う。

  • ビジネスマンは大学生なめてる。逆に言うと見下す対象を持ってないと「社会人」としてのプライドを維持できないくらい自己肯定感が薄い環境に追い込まれてる。
  • 大学生は就職したとたんあっさり会社のカルチャーになじんじゃって自分の意見を言わない。*1

というのが一番重要な問題なんだと思う。これじゃ世の中良くならないんだよ。

日本の思想 (岩波新書)

日本の思想 (岩波新書)

あと、「5%有意」は画一的で意味がない、は言い過ぎだと思う。
p 値書いたほうがいいのはもちろんそうだけど、慣習には慣習なりの意義がある。

薬学分野で有意水準5%にすることが多いのは、そんだけ効きそうな薬だったらもう人体実験とかやめて発売しちゃおうよっていうことだと思うし、物理学とかで有意水準0.0001%とか、ばかみたいに厳しいのは、パリティ対称性破れてようと破れてまいとだれも死にはしないし、焦ってもしょうがないからじっくり科学的な「事実」を確かめたほうがいいよねっていうことだと思う。

関連エントリ:
誤差の範囲とはなにか?

3. 仮説検定、しなくていいんじゃない?

上記の通り、仮説検定というのはいろいろ気にしなきゃいけないことがあって、めんどくさいです。
でもいろいろ気にしないと、検定やる意味がない、どころか施策判断の足手まといになります。

じゃあどうしたらいいのか。仮説検定しなくていいんじゃない? というのがぼくの答えです。

そこで推奨したいのは、CVR(Conversion Rate)の折れ線グラフ+信頼区間のエラーバーです。

「ひとこと言っておくよ。グラフを描かないのが、きみの弱点だ。数式をいじることだけが数学じゃない」

テトラちゃんとハーモニック・ナンバー

下記、ぼくのGoogle アナリティクスアカウントからもってきたデータです。

このブログの訪問数とCV(Conversion)数を月次で出してる。
4ページ以上閲覧した訪問の数をCV数としてカウントしてる。

訪問数 CV数
6月 51 2
7月 58 4
8月 71 2
9月 108 2
10月 182 3
11月 379 3
12月 759 18

CVR=CV数÷訪問数ね。
CVRの折れ線グラフ+信頼区間のエラーバーというのはこんな感じ
f:id:abrahamcow:20140105070825p:plain
青線は95%信頼区間。二項分布を仮定。

ならべて訪問数もつけといたほうがいいでしょう。
f:id:abrahamcow:20140105071354p:plain

見方としては、こんな感じ。
f:id:abrahamcow:20140105085327p:plain

ぼくが天気予報の比喩をよく使うのは、信頼区間の意味が直感的に伝わると思うから。
台風の予報円ってたしか70%信頼区間なんだよね。
台風の予想進路の見方 - 日本気象協会 tenki.jp


以下、 R のコード。

#データー
dat_201306_12 <-
structure(list(= structure(c(4L, 5L, 6L, 7L, 1L, 2L, 3L), .Label = c("10月", 
"11月", "12月", "6月", "7月", "8月", "9月"), class = "factor"), 
    訪問数 = c(51L, 58L, 71L, 108L, 182L, 379L, 759L), CV数 = c(2L, 
    4L, 2L, 2L, 3L, 3L, 18L)), .Names = c("月", "訪問数", 
"CV数"), row.names = c(NA, -7L), class = "data.frame")
CVR =dat_201306_12$"CV数"/dat_201306_12$"訪問数"
##
#信頼区間
upper <-qbinom(0.975,size=dat_201306_12$"訪問数",prob=CVR)/dat_201306_12$"訪問数"
lower <-qbinom(0.025,size=dat_201306_12$"訪問数",prob=CVR)/dat_201306_12$"訪問数"
##
#nihongo()
plot(CVR,xlab="", type="o", pch=16, xaxt  = "n", bty = "n",
     ylim=range(c(lower,upper)))
arrows(1:7,upper,1:7,lower,length=.05,angle=90,code=3, col="blue3")
axis(side=1,labels=dat_201306_12$"月", at=rownames(dat_201306_12))
bp<-barplot(dat_201306_12$"訪問数", ylab="訪問数",
        names.arg=dat_201306_12$"月", ylim=c(0,900))
text(bp, dat_201306_12$"訪問数", labels=dat_201306_12$"訪問数", adj=c(.5,-.5))

コーディングにあたっては下記のページを参照した。
検定と区間推定
Tips/エラーバー・信頼区間 - RjpWiki
棒グラフに割合の値を書き入れる: 一日いちR


A/Bテスト、多変量テストの図示に関しては、必要に応じて下の記事も参考にしてください。

A/Bテスト、多変量テストの図示 - 廿TT は R ユーザー向け。

A/Bテスト、多変量テストの図示(Excel 版) - 廿TTExcel ユーザー向けです。

おまけ:新入社員に伝えたいメッセージ

「統計はツールにすぎない。大切なのはビジネス理解なんだ」みたいなことをデータサイエンティストっぽい人たちはよく言う。本当にみんなそういうんだ。
「統計はツールだ。」はいいんだけど、ドラえもんじゃないんだから。「空を自由に飛びたいな」「はい。タケコプター」みたいに「施策の効果をテストしたいな」「はい。仮説検定」って、それってのび太くんにとって有益なの? できればそこまで考えてほしい。皮肉じゃなくて、本当に考えてほしいと思ってる。



反響

随時更新していけたらいいな。

  • 反響追加
    • (初回更新日:2014年1月10日)
    • (第二回更新日:2014年1月27日)
    • (第三回更新日:2014年1月28日)
    • (第四回更新日:2014年3月5日)
    • 2014年12月21日:反響を「議論系」と「質問系」に分けました。

質問系反響

tera_sawaさん

「あわてもの」の「あ」とα、「ぼんやりもの」の「ぼ」とβをくっつけるの、いいと思いましたので追記させて頂きました。

ryozo18さん(実験計画法)

Web系施策のA/Bテストとかってやっぱりまだまだ歴史が浅いので、たぶんまだまだ「実験計画法」みたいな段階には達してないと思います。

少なくとも僕は「実験計画法」の専門的な本なんて一冊も読んでません。

が、実験計画的な観点からの記事も書いてます。以下をご覧ください。


ランダムと均等の違い:リスティング広告のA/Bテストのために - 廿TT


二元配置直交表:リスティング広告のTDとLPをマッチさせるA/Bテストのために - 廿TT

sucroseさん(効果量、検出力など)

統計的仮説検定がよくわからない - 唯物是真 @Scaled_Wurm
うーん。統計的仮説検定はけっこう難しくて僕もよくわかってないです。

でも、ぼくは単に、「統計的仮説検定を知らない人に、形式的にむりやり統計的仮説検定をやらせるよりは、まずプロットして傾向を見た方がいいんじゃないですか?」っていう話をしてるので、この人の悩みの方が高度だと思います。

……が、効果量に関しては、


A/Bテスト、多変量テストのための「効果量」入門 - 廿TT

をご覧ください。

また検出力は、必要なサンプルサイズを決めるために重要になるものです。

信頼区間の幅からサンプルサイズを求めたい場合、


A/Bテスト、多変量テストに必要な期間を見積もる方法の紹介 - 廿TT

をご覧ください。

harukasanさん

エラーバーについてはこの記事が参考になるかもしれません→研究者の多くはエラーバーの意味をろくに理解していない - 音風景ブログ

この記事は、統計の話というより「国語」とか「常識」の話だと思います。

「信頼区間」の「エラーバー」、とか「標準偏差」の「エラーバー」とか、「標準誤差」の「エラーバー」とか、「なに」の「なに」かは明記してくれないとわからないし*2、明記してあればわからない言葉があっても辞書を引けば済むので便利です。

一方で、信頼区間の厳密な理解は多少あいまいでも、直感的になんとなく伝わるっていうはいいことでもあると思います。

議論系反響

uncorrelatedさん

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

1. について

1. 仮説検定は基本的に行うべき

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

僕は仮説検定自体を批判してるんじゃなくて、Web系施策のA/Bテストの場合、

赤リンクのほうが少しでもクリックされやすそうなら、赤リンクにしない理由がないじゃない、と僕は思うけど。

という話をしてるんで、僕の立場からみれば「え? 話聞いてた?」って感じです。

2. について

問題エントリーでは仮説検定をする代わりに信頼区間を出そうと主張しているのだが、分かりやすさと見栄えの観点から区間推定を利用するのは悪い選択ではないとは思うが、仮説検定と区間推定で本質的な違いは無い。
統計解析の結果として標本平均と標本分散が得られた後に、この二つを使ってある値(e.g. 0)と異なる事を検定するのが仮説検定で、この二つを使って母平均の区間推定をするのが区間推定だからだ。有意水準5%の両側の仮説検定で0の棄却に失敗したら、95%信頼区間の区間推定の間に0が入ることはない。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

本質的な違いかどうかは知りませんが、ここで言ってるのって平均の差の検定と、平均の差の信頼区間の話じゃないでしょうか? ぼくが推奨したのは、比率の信頼区間です。

3. について

天気予報の確率は予測値であって有意水準の確率とは異なるので誤解を招きそうだ。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

たしかにその通りです。申しわけない。ご指摘ありがとうございます。

4. 5. について

問題エントリーに『「有意にならなかったら有意になるまで待つ」をやってたらなんでも有意にできちゃう』とあるのだが、そんな事は無い。
まず、標本数が多くなればなるほど、標準偏差は小さくなっていくのだが、母集団の真の値と帰無仮説が同一であれば有意にならない。次に、真の値と帰無仮説が僅かに異なる場合でも、真の値と帰無仮説の差が拡大するわけではない。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

多変量解析が忘れさられているのが気になった。また、瑣末的な部分ではあるが、リンクの色とフォントが「独立じゃない」(共分散がゼロではない)と言えるのであろうか。効果が単純に累積しないと言う主張は分かるのだが。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

僕は仮説検定自体の問題点を指摘してるんじゃなくて、

そうでしょうか? ぼくは「統計検定を知らない人に」有意水準の説明すらせずに、形式的にむりやり統計的仮説検定をやらせるのはだめだと思います。
その場合、想定されるのは以下のようなパターンです。

という話をしてるんで、例として、こういう問題がありますよ、って列挙してるのです。
僕の立場からみれば「え? 話聞いてた?」って感じです。……と思ったけど、やっぱ追記させてくだい。この書き方はよくなかったです。僕の文章の「なんでも」とかは数学用語としての「任意」とかの意味ではないんで、その意味ではこの指摘は正しいです。が、言いたいことはわかるでしょ? あと「独立」の部分は「独立じゃないので」じゃなくて、「独立性の仮定を置くのが不自然なので」とか書いたほうがよかったのかな? が、言いたいことはわかるでしょ? わかると思うんだけどなあ……。

でも、まあ、「仮説検定はいらない」とか、釣り見出しっぽいタイトルつけちゃったし、引用まみれの切り貼り記事なんで、その文脈は読み取りにくくなっちゃってますね。すみません。

先方の追記(2014/01/16 18:51)について

Web系施策のA/Bテストの場合だけ特別に仮説検定をしない理由は見当たらないように思える。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

だから、「赤リンクのほうが少しでもクリックされやすそうなら、赤リンクにしない理由がないじゃない、と僕は思うけど。」って何度も言ってんじゃねーかよ!(これで三回め)

文脈は読み取りにくくなっちゃってますけど、せめて一行下に書いてある文くらい読んでいただけると助かるのですが……。

例えば、薬だったら、効果のない薬を売ること自体が詐欺になっちゃうのでちゃんと検定すべきです。

でも、「赤リンクか青リンクか決めたい」だったら、ちょっとでもクリックされる確率が高そうなほうを選べばいいじゃないですか。

心理学的な実験として、「赤リンクか青リンクか決めたい」んだったらちゃんと検定すべきです。

でも、Web業界の人があれこれ施策を試しながら判断するときに、本エントリ内で指摘したようなことをすべて網羅して仮説検定やることが、じっさい可能なの? 有益なの? その費用はだれが負担するの? ぼくはそういう話をしてるんです。お分かりいただけましたでしょうか。

比率a/bの信頼区間の場合は、H0:1=a/bを帰無仮説とする検定と本質的に同じモノを見ることになる。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

後づけじゃねーか!

だれも「H0:1=a/bを帰無仮説とする検定」の話なんかしてなかったですよね? 今まで。

ぼくは、あなたの言葉づかいを真似して言えば、「H0: a1/b1=a2/b2を帰無仮説とする検定」とかの場合を批判してたんで、それならそれでいいですよ。
が、まあふつうに信頼区間のグラフ描いたほうがいいと思いますよ。
グラフってわかりやすいし、信頼区間の情報をわざわざ棄却する/しないの二値に落としこむ理由がないし。


……なんかねえ、最初は「わーい! 反響だ〜!」って無邪気に喜んでたんですが、uncorrelatedさん、無理やりあげ足とってるだけに思えてきました。ちょっと不安になってきちゃったぞ。

反響なきゃないでさみしいし、あったらあったでさみしいという、めんどくさい性格なのかな、ぼくは。

そういえば、冒頭の「データが仮説を裏付けないと言う事実に拒絶反応を示していた。」って僕の文のどの部分がどうしてそうなるのでしょうか? ご教示いただけますと幸いです。

先方の追記(2014/01/28 02:56)について

問題のブログ主が言葉を理解できていなかったようなので、追記しておこう。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

うん。ごめん。全然わかんない(-.-;)

本文では帰無仮説をしろ立てろとは書いているが、具体的な帰無仮説がこうあるべきなんて書いていない。
帰無仮説はゼロであるべきと思ったのかも知れないが、「統計解析の結果として標本平均と標本分散が得られた後に、この二つを使ってある値(e.g. 0)と異なる事を検定するのが仮説検定」と書いておいた。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

「帰無仮説をしろ」ってなによ?
「具体的な帰無仮説がこうあるべきなんて書いていない。」ってじゃあどうしたらいいのよ?
「帰無仮説がゼロであるべき」なんて思ってないっすよ。 帰無仮説がゼロっていう意味もよくわかんないし。→これはぼくがH0:0=a/bと置くべきと思ったと思ったということかな。しかし、そうだとしてもなんでそう思ったって思ったのかよくわからない。

ぼくは具体的にどういう問題が起こってるか書きましたよ→まずはコメントに対するお答えから:A/Bテストで注意すべきこと
その上でその代案まで示しましたよ→仮説検定、しなくていいんじゃない?

あなたはなにをどうしたいのよ? そこんとこぜんぜん見えてこないよ?
それはぼくの読解力の問題でもあるけど、あなたの文章力の問題でもあると思いますよ。

責任ははんぶんこしましょうよ。お互いさまってことでいいじゃないですか。

少なくともぼくの立場から見れば比率の話か、比率の差の話かは大きな違いです。

比率の差の話ならまた多重比較の問題が発生しちゃうでしょ?→まずはコメントに対するお答えから:A/Bテストで注意すべきこと

あっと、そうそう多重比較で思い出した。忘れてました。多変量の話がどっかで出てましたよね。
これは大事なポイントですので、コメントさせてください。

三つ以上の比較なら分散分析*3とかやるのが王道です。なんですが、分散分析もまたこれはこれでややこしい手順を踏まなきゃいけないので、Web業界の人があれこれ施策を試しながら判断するときに、実験計画とかきちんと立てて運用していくのは、たぶん現実的には難しいですよ。

Webのいいところはユーザーの反応みながら、コロコロ方針変えてあれこれ試していけるとこだと思うんです。
そのいいところは活かして欲しいなぁと思って 仮説検定、しなくていいんじゃない? って言ったんです。

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

↑分散分析とか統計学の基本をイチからきちんと勉強したい方には、こちらをおすすめ。
(ただし気軽に読める本ではない。要本気計算。)

これはみんなに言っておきたいことなんですがね、データ入れたらガラガラポンで答えが出てくるほど、統計って便利じゃないんですよ、残念ながら。

統計学が最強の学問である

統計学が最強の学問である

↑タイトルからして誇大広告ぎみなんで、読んでません。

e.g. は exempli gratia の略で「〈ラテン語〉例えば、例を挙げると」と言う意味になる。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

なるほどそうだったんですね! いや〜勉強になるな〜! いろいろご指導いただいちゃって恐縮です! ありがとうございます! uncorrelatedさん、数々のご無礼をお許しくださいm(_ _)m これからはもう、先生とよばせていただきますね! uncorrelated先生まじ最高! 感謝感激雨あられ



id:uufno さん

f:id:abrahamcow:20140305043904p:plain

  • 「何でも有意になっても問題はない。」
    • いや、問題あるでしょ。なんでも有意になったら施策の判断に使えないよ。
  • 有意とはそれが偶然の値でないことを言うにすぎない。」
    • 何回もやってたらたまには偶然珍しい現象だって起きるでしょ。なんでも有意になっちゃう(はいはい、正確には『なんでも』じゃないけどさ)っていうのはそういう意味。
  • 「実際上意味があるかどうかと統計学での有意を混同していないか」
    • それが混同されないように、「仮説検定しなくていいんじゃない?」って言ったり、p 値の説明をしてみたりしてたんだけどなぁ……。

あと、皆さん、批判は大歓迎なんで、なるべくコメント欄(はてなブックマークのコメントじゃなくてブログのコメント欄)に書いていただけますと嬉しいです。

はてブコメントってたぶん暇人(おれとか)しか見てないから、せっかくの良い意見がうもれちゃうリスクがあります。

twitter の id は @abiko_ushi ですから、そっち宛でもいいですよ。議論になったらトゥゲッターとかでまとめて、第三者にジャッジを仰ぎましょう。

ask.fm も貼っとこう(http://ask.fm/abiko_ushi)なんでも質問してください。

更新履歴

2014年3月5日以降、更新がとまっていましたが、2014年12月8日より再開しました。

そもそもA/Bテストとはなにか、という大項目を一つつけ加え、加筆修正しました。

なげやりになって、下のようなことを書いたこともありましたが、お詫びいたします。

f:id:abrahamcow:20141208162548p:plain

すみません。まだしばらくA/Bテストの話させてください。

このスタンスの変化については、Wikipedia日本語版に「A/Bテスト」という項目を追加しました。 - 廿TT で釈明しております。

*1:なんでみんなそんな器用なんだよ。学生のときは学生らしく、社会人になったら社会人らしくして、みんなとなかよくして、うらやましいよ。

*2:小学校で「先生、トイレ」って言ったら「先生はトイレじゃありません」って返されました。

*3:「分散分析」(ANOVA)という名前のせいで誤解されやすいのですが、分散分析は「分散」の比較じゃなくて「平均」の比較です。