7. チョコレート消費量と
ノーベル賞受賞者数には正の相関
7
Chocolate Consumption, Cognitive Function, and Nobel Laureates
Franz H. Messerli, (2012), New England Journal of Medicine (Occasional Notes)
2002-2011チョコレートの消費量
ノ
ー
ベ
ル
賞
受
賞
者
の
数 相関係数: 0.791
P値 < 0.0001
Messerli論文の
散布図(Fig.1)
8. 著者の主張
8
Chocolate Consumption, Cognitive Function, and Nobel Laureates
Franz H. Messerli, (2012), New England Journal of Medicine
チョコ消費量
受
賞
者
の
数
Conclusions
Chocolate consumption enhances cognitive function, …
相関係数: 0.791
P値 < 0.0001
データ
12. 構造方程式モデル (SEM)
(Bollen, 1989; Pearl, 2000)
• データ生成過程を記述する道具
12
y x
f
yy
xx
efxgy
efgx
,,
,
データ生成過程
1. どういう関数で決まるか
ey ex
式で
2. 外生変数はどういう分布か
ex,ey, f の分布
y
x
観測変数の分布
構造方程式モデル
yxp ,
分
布
決
ま
る
注: 概念的には、どっちかというと構造方程式モデル
からグラフを描きます
13. 因果効果(介入効果)
(Rubin, 1974; Pearl, 2000)
• xの値をcからdに(外的に)変化させた時に、
yの値が平均的にどのくらい変化するか
13
y x
f
ey ex
cxdoyEdxdoyE ||:)( 因果効果平均
cd - 線形の場合
yy
xx
efxy
efx
xy
b
b b
注: yをxに回帰しても, 回帰係数 ≠ b (潜在共通原因fを無視してはだめ)
14. 因果探索の基本問題
14
潜在共通原因 f 潜在共通原因f 潜在共通原因f
yy
xx
efgy
efygx
,
,,
yy
xx
efxgy
efgx
,,
,
yy
xx
efgy
efgx
,
,
データ行列
x
y
~i.i.d. p x, y( )
obs.1
仮定: どれかが
データを生成
問題: どれが生成
したかを推定
obs.nobs.2 …
y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
15. 因果方向推定: 3つのアプローチ
1. ノンパラ
– 関数形にも分布にも仮定おかず どれかわからない
2. パラメトリック
– 線形+ガウス分布 どれかわからない
3. セミパラ
– 線形+非ガウス分布 どれからデータ生成したかわかる
15
潜在共通原因f 潜在共通原因f 潜在共通原因f
yy
xx
efgy
efygx
,
,,
yy
xx
efxgy
efgx
,,
,
yy
xx
efgy
efgx
,
,
y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
16. 適用イメージ: 思春期の攻撃性
• 入力: 質問紙調査のデータ (Finkelstein+, 1994)
• 因果方向推定 (Shimizu & Bollen 2014; Shimizu, 2015)
• Python code 公開 (今夏)
– 係数bの事後分布, ベイズ因子, 事後予測p値
16
データ行列
(介入なし)
Verbal Aggression Against Adults (VAAA)
Physical Aggression Against Peers (PAAP)
114 boys and girls in UK
VAAA PAAP
…
VAAA PAAP
…
<
周辺尤度
b b
22. • Linear Non-Gaussian Acyclic Model (LiNGAM)
(Shimizu+, 2006)
• データXから因果方向, 係数, 切片が
識別可能(一意に推定可能)
LiNGAMモデル
22
i
ij
jijii exbx
x1 x2
x3
21b
23b13b
2e
3e
1e
- 非巡回
- 非ガウス外生変数(誤差) ei
- ei は互いに独立
(潜在共通原因なし)
32. 独立としても一般性を失わない
独立な潜在共通原因
i
ij
jij
Q
q
qiqii exbfx 1
32
x1 x2 2e1e
1f
e 2f
e
x1 x2 2e1e
1
:1 f
ef 2
:2 f
ef
1f 2f
従属な潜在共通原因
2
1
2221
11
2221
11
2
1
00
2
1
f
f
aa
a
e
e
aa
a
f
f
f
f
41. 社会学データ
• Source: General Social Survey (n=1380)
– Non-farm background, ages 35-44, white,
male, in the labor force, no missing data for
any of the covariates, 1972-2006
41
Status attainment model
(Duncan et al., 1972)
x2: Son’s Income