読者です 読者をやめる 読者になる 読者になる

廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

計算機統計学よりの人と機械学習よりの人では、EMアルゴリズムに対するイメージが違う。

EM アルゴリズムは一般的な枠組みであるので,「EM アルゴリズムのソフトウェア」というものは存在しない。存在するのは,ある確率分布について EM アルゴリズムを実現したものである


†「EM アルゴリズムのソフトウェア」を探しているひとがいたら,その人は EM アルゴリズムが理解ができていないということである。



高村大也、奥村学『言語処理のための機械学習入門 (自然言語処理シリーズ)』(コロナ社)p.96 より
†は原注。「EM アルゴリズムが理解が」も原文のママ。

読者へ向けて

Attention, please! この文章はぼくの生煮えな認識に基づくものであり、計算機統計や機械学習をガチでやっている人の見解とは必ずしも一致しないかもしれない……って個人のブログなんだからそんなことは当たり前だし、わざわざお断りするまでもないか。

ここではEMアルゴリズムについての詳しい解説は一切しないし、数式もコードも登場しない。悪いな。他をあたっておくれよ。

このブログを世界でいちばん読み返しているのは、まちがいなく筆者のぼく自身だし、ぼくはぼくのためにブログを書いている。
思いついたことをこうやって記録に残していくことで、安心して思いついたことをいったん忘れることができる。思いついたことをいったん忘れることで、落ち着いて別の新しいことを考える余裕ができる。ぼくはこのブログをそういうふうに使っている。

計算機統計学機械学習では文化が違う。

計算機統計学機械学習もコンピューターを使って、確率論やらなにやらを応用して、データをなんとか処理していこうとしている。どっちも似たようなものだ。

しかし、統計学の目的は推定であり、機械学習の目的は分類だと思う。
「分類」という言葉には注意が必要で、機械学習の専門用語として分類classification, categorization)というときには、「こういったグループに分けたい」という明確な目標を最初から持っている「分類」のことを指す。
そのグループのことをクラスclass)、カテゴリcategory)という。

「こういったグループに分けたい」のではなく、「似ているもの同士をくっつけたい」ときの「分類」のことはクラスタリングclustering)と呼ぶ。

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)


機械学習人工知能に近い位置にある。

はじめて日本語を勉強しようとすると、分かち書きがないため、どこからどこまでが単語かわからず、辞書を引くのも苦労するらしい。
はじめて目が見えるようになったばっかりの人は、机の上にギョーザがのっているのを見ても、ぜんぶがごちゃっとした色のついた模様に見えるだけで、どこからどこまでがギョーザでどこからどこまでが机かわからないらしい。

人間の認識を再現するために必要なのは、まずなによりも「分類」だ。

自然言語処理や、画像処理をやっているエンジニアさんたちにとって、使いでがあるのは機械学習のほうだろう。
そしてEMアルゴリズムが最近注目されているのは、それがクラスタリングに使えるからだろう。

EMアルゴリズム単体は、最尤推定のための手法だ。
完全なデータに対する最尤法を基礎に、不完全な観測が含まれる場合の最尤推定を行うのための手法EMアルゴリズムである。

しかし、機械学習の立場では、その推定はクラスタリングのために必要な手段であり目的ではない。

EMアルゴリズムクラスタリングに使う場合、もともと存在しない「どのクラスタに属しているか」という情報をすべて欠測として扱い、最尤推定を行った結果残る「どのクラスタに属しているか」の情報を取り出す。
これはコロンブスの卵的な天才発想だと思う。

一方、さしあたっていまぼくが主に興味の対象としているのは計算機統計学のほうであり、ぼくの過去のブログの記事、

や,

推定のために書かれたものであることを確認しておく。

計算統計学の方法―ブートストラップ・EMアルゴリズム・MCMC (シリーズ予測と発見の科学 5)

計算統計学の方法―ブートストラップ・EMアルゴリズム・MCMC (シリーズ予測と発見の科学 5)