廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

Re:マルチレベルがわからない

マルチレベルがわからないの続き
ちょっと頭が整理されてきたので再まとめ。



古典(マルチレベルじゃない)回帰



インデックスとインジケータ(指標)

インデックス:母集団をカテゴリに分けるもの
インジケータ(指標):インデックス(カテゴリ)を基に、0か1かの値をとる変数

例:
性別のインデックス
 {\rm sex} _i=\left\{ \begin{array}{ll} 1 & ({\rm if "i" is a man}) \\ 0 & ({\rm else}) \\ \end{array} \right.
(iさんが男なら1、女なら0と符号化)

性別のインジケータ
 {\rm male} _i=\left\{ \begin{array}{ll} 1 & ({\rm if "i" is a man}) \\ 0 & ({\rm else}) \\ \end{array} \right.
(iさんが男なら1、女なら0になる)
 {\rm female} _i=\left\{ \begin{array}{ll} 1 & ({\rm if "i" is a woman}) \\ 0 & ({\rm else}) \\ \end{array} \right.
(iさんが女なら1、男なら0になる)

でも、
 {\rm male} _i
  {\rm female} _i
のどちらかひとつで、男女の区別がつくので、
カテゴリが2個(インデックスが2個の値をとる)ならば、インジケータは1個が普通。

カテゴリがJ個(インデックスがJ個の値をとる)ならば、インジケータはJ-1個が普通。


(再掲)

【表11.2】
ID 父の歳 母の人種 非公式援助? 都市ID 都市名 政策強度? 給付金の水準? 都市インジケータ
1 19 ヒスパニック 1 1 オークランド 0.52 1.01 1 0 0
2 27 黒人 0 1 オークランド 0.52 1.01 1 0 0


表11.2の養育費の研究では、

インデックス:
 {\rm city} _i=\left\{ \begin{array}{ll} 1 & ({\rm if "i" lives in Oakland}) \\ 2 & ({\rm if "i" lives in Austin}) \\ 3 & ({\rm if "i" lives in Baltimore}) \\ \vdots \\20 & ({\rm if "i" lives in Norfork}) \\ \end{array} \right.

インデックスが20個の値をとるので、インジケータは19個

オークランドを除く⇒ {\rm Austin} _i , {\rm Baltimore} _i , \ldots ,  {\rm Norfork} _i
オースチンを除く⇒ {\rm Oakland} _i , {\rm Baltimore} _i , \ldots ,  {\rm Norfork} _i

…など

例えば、
 y_i = \beta X _i = \left( \begin{array}{cccc} \beta _0& \beta _1&  \cdots & \beta _{19}\\ \end{array}  \right) \left( \begin{array}{c} 1 \\  {\rm Austin} _i \\ \vdots \\ {\rm Norfork} _i \end{array}  \right) \\ =\beta _0 + \beta  _1 \cdot {\rm Austin} _i + \cdots +\beta _{19}\cdot  {\rm Norfork} _i
こういう回帰式があるとしたら、係数
 \beta  _1, \ldots ,\beta _{19}
は、
 \beta  _1の分大きいとか、 \beta  _{19}の分小さいとか)
オークランドとの比較と解釈できる。

※これを、オークランドがベースラインになっているという。



マルチレベル

同じ例で言うと


 \Pr(y_i = 1) = {\rm logit}^{-1}(X_i \beta + \alpha _{j[i]}) , i=1,\ldots ,n (11.1)

 \alpha _j \sim N(U _j \gamma , \sigma ^2 _{\alpha}), j=1,\ldots ,20 (11.2)

であった。
 j=j[i]=\left\{ \begin{array}{ll} 1 & ({\rm if "i" lives in Oakland}) \\ 2 & ({\rm if "i" lives in Austin}) \\ 3 & ({\rm if "i" lives in Baltimore}) \\ \vdots \\20 & ({\rm if "i" lives in Norfork}) \\ \end{array} \right.

※ベースラインとしての都市を、どこかひとつ選ぶステップは不要。

そして、
古典回帰で、20都市すべてのインジケータをモデルにいれて、
 y_i =\beta _0 + \beta  _1 \cdot {\rm Oakland} _i +\beta  _2 \cdot {\rm Austin} _i + \cdots +\beta _{20}\cdot  {\rm Norfork} _i
というふうにすると、定数項 \beta _0との「共線性」が現れてしまう。
マルチレベルなら問題ない。



共線性

例えば、

 {\rm male} _i=\left\{ \begin{array}{ll} 1 & ({\rm if "i" is a man}) \\ 0 & ({\rm else}) \\ \end{array} \right.
 {\rm female} _i=\left\{ \begin{array}{ll} 1 & ({\rm if "i" is a woman}) \\ 0 & ({\rm else}) \\ \end{array} \right.
のとき、
 {\rm female} _i=1 -  {\rm male} _i
と表せる。

同様、

 {\rm Oakland} _i , {\rm Austin} _i , {\rm Baltimore} _i , \ldots ,  {\rm Norfork} _i
の場合は、

 {\rm Oakland} _i  = (1-  {\rm Austin} _i + {\rm Baltimore} _i + \cdots +  {\rm Norfork} _i)
と表せる。


 y_i = \beta _0 + \beta  _1 \cdot {\rm Oakland} _i +\beta  _2 \cdot {\rm Austin} _i + \cdots +\beta _{20}\cdot  {\rm Norfork} _i \\ = \beta  _1 (1-  {\rm Austin} _i + {\rm Baltimore} _i + \cdots +  {\rm Norfork} _i) + \beta  _2 \cdot {\rm Austin} _i + \cdots +\beta _{20}\cdot  {\rm Norfork} _i


  (1-  {\rm Austin} _i + {\rm Baltimore} _i + \cdots +  {\rm Norfork} _i)
↑この変数は他の変数の一次結合になっている。

こういうとき「共線性」が現れる(んじゃないかな?「共線性」というのがよくわかってないので。参考:http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg6.html

↓以上、この本より。

Data Analysis Using Regression and Multilevel/HierarchicalModels (Analytical Methods for Social Research)

Data Analysis Using Regression and Multilevel/HierarchicalModels (Analytical Methods for Social Research)