読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

こんにちは検定、ハロー統計的有意性/読書猿くるぶしさんの書き方は誤解を招く

A/Bテスト 仮説検定

仮説検定はダメ?

 本エントリはこの記事への批判です→サヨナラ検定、グッバイ統計的有意性/統計を使うつもりなら必読の論文はこれ 読書猿Classic: between / beyond readers

 ぼくは読書猿くるぶしさんを書評家として最大級にリスペクトしており、まさか氏を批判する日がくるとは思わなかった。
 が、考えてみりゃあぼくと完全に意見が一致する人なんているわけがないよな……。

 さて、氏は当該記事において
『(結論)統計学的仮説検定ではなく、検定力分析(パワー・アナリシス)と効果量effect sizeの信頼区間の報告を使うようになっておこう。』
と主張している。

 そして、仮説検定がだめな理由の例として、 

5%水準の検定を20回やったとすると、これらがそれぞれを独立しているとすれば、20回(20年間)で「少なくとも1回以上の間違った主張をしてしまう確率」は,65%近くにもなる。
 つまり1度も間違えない確率は95%(=0.95)の20乗(= 0.358485922)なので、それを1から引けば、少なくとも1度は「実際は全く差がないのに、差があると」間違えて判断する確率は、65%近くにもなるのである。

サヨナラ検定、グッバイ統計的有意性/統計を使うつもりなら必読の論文はこれ 読書猿Classic: between / beyond readers

 と述べる。

 しかし、それをいったら効果量の信頼区間もこれとまったく同じ論法で批判することができる。
 こんな風だ:効果量とその95%信頼区間を出す実験を行った。その後それぞれ独立に効果量を出す実験を20回行ったとすれば、最初の効果量の95%信頼区間に含まれていない効果量が少なくとも一回は算出される確率は65%近くにもなる。

 では結局なにが本当かわからないということになるだろうか? ならない。

 自然科学には追試というものがある。
 
 実験一回ですべてが決まることはない。なにか重要な発見があったら、また別の人が同様の実験をやって、それが再現できるか、ということを確かめる。

 つまり、仮説検定をやったとしても、同じ結果が一貫して再現できるかどうか(安定して小さい p 値が出ているか)で判断するのが科学の態度だ。
 最初は有意だったのに、後々ひっくり返ることもあるだろう。
 しかし観測には偶然とか誤差ってものがあるんだから、そりゃどうしようもない。
 これをもって仮説検定は使えないということにはならない。

 もう一方の検定力分析(パワー・アナリシス)の方はどうだろう。

 検定力(ふつう power は検出力と訳す気がするが、これは文化の違いだろう)とはなにか?

 統計学的検定とは、おおざっぱにいえば、次のようなものである。
0.主張したいことがある。たとえば「この薬は効果がある」といったような。
1.主張したいことを、実験で甲乙つけられるような形で表す。「薬を飲んだグループと飲んでないグループを比較すると(他の条件は同じ)症状の改善に差がある」
2.1とは反対の仮説を作る。「薬を飲んだグループと飲んでないグループとでは、症状の改善に差がない」
3.実験データから、2.の仮説が成り立つ確率を計算する。
4.3.の確率がかなり小さければ(たとえば5%より小さいとか、1%とより小さい)、2.の仮説を捨てる。だから1.の主張が言える(そう主張しても、間違う可能性はかなり小さい)

サヨナラ検定、グッバイ統計的有意性/統計を使うつもりなら必読の論文はこれ 読書猿Classic: between / beyond readers

 この説明は正しい。これを敷衍して、本当は「この薬は効果がある」のに、実験データから計算した「反対の仮説」が成り立つ確率(これを p 値と呼ぶ)が予め定めた水準(5%とか、1%とか)よりたまたま小さくならなかったせいで、「この薬は効果がある」と言えないような場合も考えることができる。
 検定力とは、「この薬は効果がある」と言える確率のことを指す。
 だから、予め定めた水準(5%とか、1%とか)=有意水準が固定されていなければ検定力は比較できない。

 仮説検定の枠組み自体を否定してしまったら、検定力が求められないのだから、検定力分析(というのが具体的になにを指しているのかは明記されていないが)も成り立たないはずだ。

 ここである疑問が生じる。
 そもそも氏が必読論文とした Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing (pdf) に「統計学的仮説検定ではなく、検定力分析(パワー・アナリシス)と効果量effect sizeの信頼区間の報告を使うようになっておこう」というようなことが書かれているのだろうか?
 
 抄訳(TAKENAKA's Web Page: 有意性検定の無意味さ)を頼りに読み進めると、この論文が主張してるのはすごく慎ましやかなことだ。

ぼくの解釈:

  • p 値はサンプルサイズに依存するので、サンプルサイズを増やせば p 値を小さくできる.
  • 有意水準が5%だからって機械的に、p 値が0.051 なら意味がないが,0.049 だったら意味があるなんていうのは変な話.
  • p 値だけを見ると、p 値を小さくするためにやみくもにサンプルサイズを増やす、なんて意味のないことを行っちゃうから、どれだけのサンプルサイズが必要か、検出力を見てちゃんと実験計画を立てよう。
  • また、こんな風にまちがった使い方をされることが多い仮説検定の代わりに、効果の大きさの推定値を信頼区間付きで示したりしよう。
  • または統計的決定理論、統計的モデル選択の基準(AIC など)や、ベイズ的アプローチなんかを場合に応じて使っていこう。


 あのー……これって、けっこう当たり前のこと言ってません?

 そう、抄訳にも「この論文には,何も新しいことは書いてない. すでに数多の論文で主張されてきたことばかりだ.」とある。


結論:
読書猿くるぶしさんの書き方だと、統計学的仮説検定がぜんぶダメという風に受け取られると思う。
統計学的仮説検定がぜんぶダメというわけではなく、p 値だけが唯一絶対の基準みたいになってる状況がダメ。

統計データ分析のタコツボ化

Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing (pdf) のp.10、『推定値と信頼区間(Estimates and Confidence Intervals)』の2段落目に「驚かれるかもしれないが,信頼区間は統計的仮説検定よりも長い歴史を持つ(Perhaps surprisingly, confidence intervals have a longer history than statistical hypothesis tests)」と書かれているのを見てぼくは別の意味で驚いた。

 ふつう統計の教科書は、
点推定(平均=3、とか)→区間推定(平均の信頼区間=3±2、とか)→仮説検定(平均≠3、とか) 
という順番で進む。

 仮説検定は推定を踏まえた上で進む次のステップ、という認識だった。

 ちょっと仮説検定とかについてちゃんと勉強しとこうと思ってこの本を読んだ。

伝えるための心理統計: 効果量・信頼区間・検定力

伝えるための心理統計: 効果量・信頼区間・検定力

↑この本のあとがきにはこうある。

 p 値が 0.05 よりも小さくなってくれれば,論文が書ける.0.05 より小さくならなければ,論文が書けず,せっかくとったデータが「お蔵入り」になってしまう――.
 これってなにかおかしい気がする.そう感じたことのある方は,おそらく多くいらっしゃるのではないでしょうか.


――大久保街亜、岡田謙介『伝えるための心理統計: 効果量・信頼区間・検定力』(勁草書房)p.201

 うん。おかしい。
 この本は p 値だけが唯一絶対の基準みたいになってる現状を批判してるんだけど、ぼくはむしろ今まで p 値だけが唯一絶対の基準みたいになってたことにびっくりした。
 
 そういえば『統計学入門』という本のレビューにこんなことが書かれていた。

統計学は、とにかく実践的には検定ができればよい。」「これで???になってしまうと、理系の実験は苦しいかもしれない。」
統計学入門 (基礎統計学) shinさんの感想 - 読書メーター

 うーむ。こういう認識なんだろうか?

 そういえば『金沢城のヒキガエル』では、
「学者はとにかく論文を書かなければ生き残れない。新発見があれば論文が書ける。だから生物学の研究者はなんとかいう魚が一日に何回フンをしたとか、どうでもいいことを無理やり発見して論文にしてる。」
というようなことが書かれていた……ような記憶がある。

金沢城のヒキガエル―競争なき社会に生きる

金沢城のヒキガエル―競争なき社会に生きる

↑だいぶ前に読んだのでかなりうろおぼえだ。上記の引用は不正確です。

↑復刊されてるみたいなので読みなおそうかな


 事実に忠実でなければ科学じゃないけど、事実を寄せ集めたって科学にはならない。
 これと同じで有意を寄せ集めたって、意味があるとは限らない。

 じゃあ「意味がある」ってなんだ? と聞かれると困る。場合によるとしか言いようがない。

 場合によるから、そのためにいろんな指標や分析手法がある。

 そのいろんな統計手法を使いこなせるのは統計学者なんだろうけど、統計学者は統計学者で、やっぱりぼんぼん論文書かないと生き残れないんだな、これが。

 既存の手法を教科書どおりに適用してちゃんと答えがでましたね、はいおしまい。これじゃ研究じゃなくてただのケーススタディになっちゃう。

 でも実際、既存の手法を教科書どおりに適用してちゃんと答えが出るっていう状況が当たり前なのは、その分野の専門家の内部だから通じる話。

 専門家以外の人にとっては、区間推定すらあたりまえじゃないんだ。そりゃそうだよな。教わってないもん。

統計学者以外の学者:
 「学者はとにかく論文を書かなければ生き残れない。新発見があれば論文が書ける。」→「だから仮説検定だけ覚えよう」となると、整理されてない棚からひっぱり出してきた道具をわけもわからず使う、みたいになっちゃうんじゃないだろうか。

統計学者:
 「学者はとにかく論文を書かなければ生き残れない。新発見があれば論文が書ける。」→「だから新しい統計手法を提案しよう」それはまあいいんだけど、その手法が活用されてないんじゃ意味ないじゃないか。

 この議論のぼくなりの結論としては、専門家からみればあたりまえのことだけど、門外漢にとってはあたりまえじゃないことがいっぱいあって、それを伝えるのは必要なことだと思うけど、でもそれを伝える作業ってめんどくさいわりに評価されないし、ケンカになるわりに金にならないし大変。でもそれでも、Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing (pdf) みたいな論文がちゃんと評価されてるんだから希望が持てる、というような感じ。

ブックレビュー:統計を使うを使うために

検定力分析入門

検定力分析入門

伝えるための心理統計: 効果量・信頼区間・検定力

伝えるための心理統計: 効果量・信頼区間・検定力

↑これらの本は読みやすいし、悪くはないと思うが、数学的な議論をけっこう大胆に省略してるので、あまり積極的におすすめしたい感じではない。

入門・演習 数理統計

入門・演習 数理統計

統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

↑それよりもこれらの本で、ゆっくり勉強して基本をかっちり固めたほうが、結局は近道だったりするんじゃないだろうか。

 もちろんそんな悠長に勉強してるヒマなんてない、という人もいるだろう。
 そのへんの判断は読者のみなさまに任せる。

 また、他に手っ取り早くて便利な本を見つけたら別途報告する。
→見つけました。

品質管理のための統計手法 (日経文庫)

品質管理のための統計手法 (日経文庫)

永田 靖『品質管理のための統計手法』 (日経文庫)
 統計学は確率論、微分積分線形代数などの予備知識を必要としますが、この本はその辺をうまく回避しつつ、実験計画や仮説検定をかなり高度なレベルまで説明してます、それも単なるたとえ話じゃなくて、実運用可能なように。
 この薄さでこの内容は驚異的。話の運びがうますぎて綱渡りみたいな曲芸を見てる感じになる。


 また、一方で山形浩生のこの指摘は一理ある。

流派の問題もあるんだけれど、ぼくは素人の統計学は信頼区間とか面倒過ぎると思うので、回帰分析だけでいいと思ってる。信頼区間とかは、あまりきちんと理解しなくてもいいんじゃないかと……(というと統計学をきちんとやった人は怒るだろけど)。

Books that I wrote/translated

 ふつう統計の教科書は、
点推定 → 区間推定 → 仮説検定 
という順番で進む、とさっき書いた。

 回帰分析は点推定の一種なんだけど、かなり使える。

統計グラフのウラ・オモテ―初歩から学ぶ、グラフの「読み書き」 (ブルーバックス)

統計グラフのウラ・オモテ―初歩から学ぶ、グラフの「読み書き」 (ブルーバックス)

↑この本は読みやすい上に、推定とかに持ち込む以前の記述統計をきっちり抑え、回帰分析まで理解できる。
 区間推定とか仮説検定はめんどくさいので、その辺は学者や専門家に任せて、一般ユーザーはこの一冊でオッケーなのかもしれない。