廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

マルチレベルがわからない

今、

Data Analysis Using Regression and Multilevel/HierarchicalModels (Analytical Methods for Social Research)

Data Analysis Using Regression and Multilevel/HierarchicalModels (Analytical Methods for Social Research)

↑この本の11.4のはじめあたりを読んでる。おおむね、

古典回帰:ベースライン&J−1個のインジケータ変数を含む

  1. セクション 4.5 の終わりで論じたように、古典回帰がJ個のカテゴリを持った入力値を含むとき、1 つベースラインになるカテゴリを選択し、その他J-1 カテゴリをインジケータに含めることが、標準的な方法である。
  2. 例えば、表11.2 の養育費の研究で、J = 20 都市を操作するとしたら、都市 1(オークランド)を一つ、ベースラインとしておいて、ほかの 19 都市をインジケータへ含める。各都市の係数は、そのためオークランドとの比較を表している。

マルチレベル回帰:J個のインジケータすべてを含む

  1. マルチレベルモデルでは、↑の、ベースラインとして一つのレベルを選ぶステップは不要。例えば、(11.1)のモデルのように、20 都市をすべてインジケータに含める。
  2. 古典回帰では、定数項との共線性のために、すべてを含めることはできない。
  3. しかし、マルチレベルモデルでは、このことは問題にならない。
  4. なぜなら、グループレベルの分布((11.2) のように、それ自身も回帰できる)によって、それ自身モデル化されるためである。

このようなことが書いてあるのだが、よくわからない。
なので、わからないところをリストしてみる。

「古典回帰」のほう
「ベースライン」とはなにか?「インジケータ」とどう関係するのか。

「マルチレベル」のほう
(2行目)「共線性」とはなにか?
(4行目)「グループレベルの分布((11.2) のように、それ自身も回帰できる)によって、それ自身モデル化されるためである。」←さっぱりわからない。

できれば順番に解決していきたい。


『ベースライン』について

「セクション 4.5 の終わりで論じたように、」とあるので、「セクション 4.5 の終わり」を読みなおしてみよう。

識別可能性

  1. 「モデルが識別可能でない」:モデルが独自に推定できないパラメータを含む時に言う(無限大の標準誤差を持つ、ともいう)。その有名かつ重要な例は、共線性。
  2. インデックス変数がJ個の値をとる ⇒ インジケータ変数はJ個ある。古典回帰では、J-1個のみをモデルに入れる。
  3. ベースライン、デフォルト、リファレンス:各インデックスに対して、回帰から除かれたインジケータは、デフォルト、リファレンス、ベースライン条件として知られる。なぜかというと、J-1個のインジケータを0とおいたら推論できるカテゴリーだから。
  4. 実際やってれば、係数の推定で"NA"と返ってきたり、エラーになったりするので、識別不可能というやつが分かるだろう。

こんな風だった。
(箇条書きの一項目がおおむね原文の一段落に対応)

ここでも「共線性」が出てきた。

「ベースライン」を分かるためには、「インジケータ」と「インデックス」の違いを整理したほうがよさそうだ。
(話はだんだん細かくなる)
インデックス変数:母集団をカテゴリーに分けるもの
インジケータ変数:インデックスを基に、0か1かの値をとる変数


「共線性」について

よくわからないけれども、↓このページは、あとでちゃんとよんでみよう。
http://aoki2.si.gunma-u.ac.jp/Yogoshu/102.html


「グループレベルの分布((11.2) のように、それ自身も回帰できる)によって、それ自身モデル化されるためである。」について

(11.2)がでてきたところを見直す。

【表11.2】
ID 父の歳 母の人種 非公式援助? 都市ID 都市名 政策強度? 給付金の水準? 都市インジケータ
1 19 ヒスパニック 1 1 オークランド 0.52 1.01 1 0 0
2 27 黒人 0 1 オークランド 0.52 1.01 1 0 0

「非公式援助」から右のデータはおなじ都市に住んでいる人なら、同じものになるので、表を分割して表すこともできる↓


【表11.3-1(個人のデータ)】
ID 父の歳 母の人種 非公式援助? 都市ID
1 19 ヒスパニック 1 1

【表11.3-2(都市のデータ)】
都市ID 都市名 政策強度? 給付金の水準?
1 オークランド 0.52 1.01

「y =1」っていうのが「非公式援助=あり」なのかな?
だとすると、iさんに「非公式援助」が「ある」確率をモデル化していることになる↓

 \Pr(y_i = 1) = {\rm logit}^{-1}(X_i \beta + \alpha _{j[i]}) , i=1,\ldots ,n (11.1)
X:個人レベルの予測変量の行列(X=(iさんの父の歳 iさんの母の人種 )かな?)
j[i]:iさんの住む都市を表すインデックス

 \alpha _j \sim N(U _j \gamma , \sigma ^2 _{\alpha}), j=1,\ldots ,20 (11.2)
U:都市レベル予測変量の行列(U=(j市の政策強度 j市の給付金の水準)かな?)
γ:都市レベル回帰係数のベクトル
 \sigma  _{\alpha}:「グループレベルの誤差」では説明できない標準偏差

「『グループレベルの誤差』では説明できない標準偏差」←よくわからないけど、このあたりちゃんと理解したほうがよさそう。


  • ながながと書いてきてなにひとつ解決してない。
  • しかも表がなんかずれてる…だめだ…。