廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

ビッグデータ雑感

はじめに

神林氏は、「統計の基本的な考え方は、大きなデータを全部見なくても、サンプリングで傾向が導き出せるという点。こういう統計技術があったため、今までセンサーデータ*1を採らなくても、分析ができていた。ビッグデータを声高に唱える人は、こういう統計の基礎の習得が不十分なのではないか?と思われることが多い」と言い放つ。

http://ascii.jp/elem/000/000/687/687170/

基本的にはこれらの意見は正しいと思う。けどちょっとちがう見かたもできる。

うん。だからサンプリングしてるよ

データセットからもう一回サンプリングしなおすことをサブサンプリング、リサンプリングなどと呼び、サブサンプリングして推定するような手法はちゃんと研究されていて、ブートストラップとか呼ばれている。

でもこれはデータが大きすぎるからサンプリングしなおすっていうよりはむしろ、少ないデータでなんとかがんばりたいときに使う感じかもしれない。多すぎる分にはそれこそランダムサンプリングすれば済む話だし。

バイト的にはビッグだけどサンプルサイズ的には小さい、みたいな状況もある

たとえば商品の種類がすごいたくさんあるお店があって、一種類ごとにみたらたまにしか売れてないけど、お店全体でみた売り上げはでかいとする。このお店が「この商品を買った人はこんな商品も買っています」みたいなことをやろうとしたとき、データの量はビッグだけど同時確率を推定する問題*2としてはサンプルサイズが足りない、ということはふつうにあり得る。

機械学習と統計では文化がちがう

機械学習は学習なので機械にいっぱい学習させようとする。たしか学習すればするほどモデルの精度が上がる、みたいな理論がちゃんとあったはず(うろおぼえ)。なのでデータがいっぱいあるなら使えるだけ使って学習させたほうがいい(僕は機械学習まったく詳しくないのであまり信用しないでください)。

そもそもだね、統計の基本的な考え方は、大きなデータを見るのが大変だからサンプリングで、なんて、そんな消極的なものではないのだよ

実は数理統計学で推定する「母集団(の分布)」というのは、現実に存在するものではない。
「母集団」というのはなんというか、でたらめな数が無限個入った壺みたいなものだ。
ものごとの本質は「ぜんぶ見たからわかる」、「いや、一部だけ見れば全体もだいたい分かる」っていうようなものではなく「母集団」の母数(パラメータ)を推定しないとわからないのだと僕は思っている、本質ってなんだよという話はさておき。

でもまあ、「統計の基本的な考え方は、大きなデータを全部見なくても、サンプリングで傾向が導き出せるという点。」というのは正しいと思う。

ところで

少し長くなるが引用。
データマイニングっていう言葉がもともとは蔑称だったという話。

データマイニング、という手法がある。ふつう、科学ではまず仮説をたてて、それを検証するためのデータを探し(それは統計データだったり実験して集めたデータだったりする)、そしてそれをもとに、最初の仮説が妥当かどうかを判定する。でも、データマイニングでは、これは逆だ。統計データや実験データをいっぱい用意して、それをいろいろ並べ替えたり、回帰分析したり、一部だけ取り出してみて、あれやこれやと加工したあげくに、何かもっともらしい関係がどっかに見いだせないか探すやり方。マイニングは英語で、鉱山を掘ることだ。鉱山を掘るみたいにデータの山を掘って、鉱石が見つからないか探すからデータマイニングと言う。#1


#1 ただし最近では事情が変わってきた。仮説を持たずに大量のデータをあれこれいじくって、何かパターンをそこから見いだすような、exploratory data analysis*3 と同じ意味でデータマイニングということばを使う場合が増えてきた。データの自動収集が発達して無作為のデータが山ほど集まるようになってくると、仮説を考えるよりデータの傾向をあれこれ見てやって、おもしろそうな偏りを見つけて、そこから理論を構築するほうが楽になってきた。かつてはデータマイニングというのは蔑称だったんだけれど、いまは一部の世界では、胸を張るべき新技法として扱われる場合もあるので注意が必要ではある。


この手法は、たとえば仮説の糸口を探したりするときには結構有効だ。でもその一方で、データマイニングには大きな危険がある。データがいっぱいあって、それを好きに取捨選択できるんなら、ほとんどどんなことでも言えてしまう、ということだ。あるいはもっとひどい方法がある。仮説にあわせて、それにあてはまるデータだけを探してくることもできる。たとえば背が高い子ほど成績がいい、と言いたい学者が、全国の高校生のデータを見たとしよう。全体のデータを見ても、そんな結果は得られないかもしれない。でも、全国の都道府県の中にはどっか一つくらい、そんな傾向がある地域もあるかもしれない。あるいは、女の子だけを取り出すとそんな傾向がある場合もあるだろう。成績といっても、特定の科目ではそんな関係がたまたたまある年だけ成立しているかもしれない。そんな具合に、データが多ければどっかに背と成績が比例するような部分はあるだろう。それを拾ってくれば、論文いっちょあがり。仮説もある、それを裏付けるデータもある――でも、それはまともな科学ではない。


#2 でも、特定の結果を出したいときには、ついついこれに近いことをだれしもやってしまうんだよね。

[山形浩生(2003)たかがバロウズ本。 大村書店 pp.319-320 (#1 #2 は原注)]

おもしろい。データマイニングって「お前のやってることは山師と一緒だ」っていう意味だったのね。それまで邪道とされてきたことが認められていくプロセスこそが科学の歴史なのかもしれない。

やっぱりデータマイニングやるにしてもある程度は仮説を持ってやらないと結局あまり意味がないと思う一方で、データをいじることで仮説にたどり着くっていうのも悪くないと思う。弁証法ってやつか。

たかがバロウズ本。

たかがバロウズ本。

*1:censored data のことではない。赤外線センサーとかドップラーセンサーとかのセンサー

*2:アソシエーション分析とかマーケットバスケット分析とか呼ばれる。相関ルール分析ともいうがこれは統計用語の「相関」とは別ものなのでこの訳語はあんまり好きじゃない

*3:探索的データ解析