構造方程式モデルによる
因果探索と非ガウス性
清水昌平
大阪大学 産業科学研究所
数学協働プログラム 確率的グラフィカルモデル
電気通信大学 2015年3月
https://sites.google.com/site/sshimizu06/indexj
応用例はココ: https://sites.google.com/site/sshimizu06/home/lingampapers#applications
Abstract
• 因果探索
– 介入のないデータから因果グラフを推定
• 課題
– 時間情報なし
– 潜在共通原因による疑似相関
• セミパラメトリックアプローチ
– 関数形には仮定: 線形性 (or 非線形加法的)
– 分布は非ガウス(連続)
– 「適度な」仮定の下, データ分布の情報を全て利用して
課題にタックル
2
使い方 その1:
因果方向に関する仮説を比較
• 抑うつ気分と睡眠障害 (Rosenström+, 2012)
• TV視聴時間と腹囲 (Helajärvi+, 2014)
• VAAAとPAAP (von Eye+, 2012)
3
抑うつ
気分
睡眠障害
抑うつ
気分
睡眠障害
?
or
どれ?
データ行列X
推定抑うつ気分
睡眠障害
人1, 人2, …, 人1689
疫学調査 抑うつ
気分
睡眠障害
or
使い方 その2:
背景知識がない時に因果仮説を探索
• 2つの条件で違うのはどこ?(Mill-Finnerty+ 2014, NeuroImage)
• 因果仮説の構築支援
4
VMPFC DLPFC
Ant. Cing
Caudate Accumbens
Insula
VMPFC DLPFC
Ant. Cing
Caudate Accumbens
Insula
異なる条件で
異なる因果構造
Positive framing Negative framing
fMRI
脳活動計測
使い方 その3:
背景知識がない時に因果仮説を探索
• 原因変数選択 (cf. Maathuis+, 10; Campomanes+, 14; Bottou+, 14)
• 「説明」変数を原因系, 結果系, 無関係に3分
– lassoは原因と結果を区別しない
(疑似相関も区別しない)
5
変数11
ターゲット
変数
変数200
変数1
変数30 変数20
変数150
原因系
結果系
変数3
変数300
無関係
因果探索では
何を問題にしているか?
チョコレート消費量と
ノーベル賞受賞者数には正の相関
7
Chocolate Consumption, Cognitive Function, and Nobel Laureates
Franz H. Messerli, (2012), New England Journal of Medicine (Occasional Notes)
2002-2011チョコレートの消費量
ノ
ー
ベ
ル
賞
受
賞
者
の
数 相関係数: 0.791
P値 < 0.0001
Messerli論文の
散布図(Fig.1)
著者の主張
8
Chocolate Consumption, Cognitive Function, and Nobel Laureates
Franz H. Messerli, (2012), New England Journal of Medicine
チョコ消費量
受
賞
者
の
数
Conclusions
Chocolate consumption enhances cognitive function, …
相関係数: 0.791
P値 < 0.0001
データ
チョコレートをたくさん食べさせれば
受賞者が増えるのか?(因果関係)
• 飛躍しすぎ (Maurage et al., 2013, J. Nutrition)
9
チョコ 賞 ?チョコ 賞
or
GDP GDP
チョコ 賞
or
GDP
相関係数 0.791
P値 < 0.001
複数の因果関係が
そのような相関関係を与えるギャップ
チョコ
賞
潜在共通原因 潜在共通原因 潜在共通原因
(相関関係)
ギャップが埋まる場合はある?
10
「3つのうち, どれがよいか」データから言える場合はある?
チョコ 賞 ?チョコ 賞
or
GDP GDP
チョコ 賞
or
GDP
潜在共通原因 潜在共通原因 潜在共通原因
3つのモデルは, 相関係数は同じかも, しかし
それ以外に違うところがあるのでは?
どんな仮定が必要?
データ分布の情報をすべて利用
因果探索のフレームワーク
チョコ 賞
GDP
潜在共通原因  
 yy
xx
efxgy
efgx
,,
,


構造方程式モデル
構造方程式モデル (SEM)
(Bollen, 1989; Pearl, 2000)
• データ生成過程を記述する道具
12
y x
f
 
 yy
xx
efxgy
efgx
,,
,


データ生成過程
1. どういう関数で決まるか
ey ex
式で
2. 外生変数はどういう分布か
ex,ey, f の分布
y
x
観測変数の分布
構造方程式モデル
 yxp ,
分
布
決
ま
る
注: 概念的には、どっちかというと構造方程式モデル
からグラフを描きます
因果効果(介入効果)
(Rubin, 1974; Pearl, 2000)
• xの値をcからdに(外的に)変化させた時に、
yの値が平均的にどのくらい変化するか
13
y x
f
ey ex
     cxdoyEdxdoyE  ||:)( 因果効果平均
 cd  - 線形の場合
yy
xx
efxy
efx




xy
b
b b
注: yをxに回帰しても, 回帰係数 ≠ b (潜在共通原因fを無視してはだめ)
因果探索の基本問題
14
潜在共通原因 f 潜在共通原因f 潜在共通原因f
 
 yy
xx
efgy
efygx
,
,,

  
 yy
xx
efxgy
efgx
,,
,

  
 yy
xx
efgy
efgx
,
,


データ行列
x
y
~i.i.d. p x, y( )
obs.1
仮定: どれかが
データを生成
問題: どれが生成
したかを推定
obs.nobs.2 …
y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
因果方向推定: 3つのアプローチ
1. ノンパラ
– 関数形にも分布にも仮定おかず  どれかわからない
2. パラメトリック
– 線形+ガウス分布  どれかわからない
3. セミパラ
– 線形+非ガウス分布  どれからデータ生成したかわかる
15
潜在共通原因f 潜在共通原因f 潜在共通原因f
 
 yy
xx
efgy
efygx
,
,,

  
 yy
xx
efxgy
efgx
,,
,

  
 yy
xx
efgy
efgx
,
,


y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
適用イメージ: 思春期の攻撃性
• 入力: 質問紙調査のデータ (Finkelstein+, 1994)
• 因果方向推定 (Shimizu & Bollen 2014; Shimizu, 2015)
• Python code 公開 (今夏)
– 係数bの事後分布, ベイズ因子, 事後予測p値
16
データ行列
(介入なし)
Verbal Aggression Against Adults (VAAA)
Physical Aggression Against Peers (PAAP)
114 boys and girls in UK
VAAA PAAP
…
VAAA PAAP
…
<
周辺尤度
b b
多変数の場合も役立つ
• 多変数の場合の課題
– 因果グラフの候補が膨大
• ペアごとに分析して候補の数を減らせる
– 計算も助かる(貪欲法回避; パソコンで可?)
17
x1
x2
x4
x3
f1
f3
x1 x2
x3 x4
ペ
ア
ご
と
に
分
析
候
補
の
絞
り
込
み
x1
x2
x4
x3
f1
f3
完全グラフ
あとは辺の
有無を評価
Talk outline
1. 動機とフレームワーク: Done!
2. 因果方向推定の基本アイデア
– 潜在共通原因「なし」の場合を例に
3. 潜在共通原因「あり」の場合の因果
方向推定
18
因果方向推定の
基本アイデア
潜在共通原因が「ない」場合を例に
• 2つのモデルを比較(因果方向が反対):
– x1とx2どちらが先に生成されたか知らない
• モデル1と2が識別可能な条件 (Dodge+, 00; Shimizu+, 2006)
– e1 or e2が非ガウス
– e1 と e2が独立 (潜在共通原因なし)
と は外生(誤差)変数(連続)
時間情報なし
20
or
21212
11
exbx
ex


22
12121
ex
exbx


モデル1: モデル2:
x1 x2
e1 e2
1e 2e
x1 x2
e1 e2
識別可能: 方向が違えば分布が違う
𝑒1, 𝑒2がガウス 𝑒1, 𝑒2が非ガウス
(一様分布)
モデル1:
モデル2:
x1
x2
x1
x2
e1
e2
x1
x2
e1
e2
x1
x2
x1
x2
x1
x2
212
11
8.0 exx
ex


22
121 8.0
ex
exx


    1varvar 21  xx
    ,021  eEeE
21
相関係数は
どれも0.8
• Linear Non-Gaussian Acyclic Model (LiNGAM)
(Shimizu+, 2006)
• データXから因果方向, 係数, 切片が
識別可能(一意に推定可能)
LiNGAMモデル
22
i
ij
jijii exbx  

x1 x2
x3
21b
23b13b
2e
3e
1e
- 非巡回
- 非ガウス外生変数(誤差) ei
- ei は互いに独立
(潜在共通原因なし)
外生変数の独立性がどう役立つか?
23
21212
11
exbx
ex


モデル 1:
x1
x2
e1
e2
真
結果x2を原因x1に回帰 原因x1を結果x2に回帰
2
1212
1
1
12
2
)1(
2
)var(
),cov(
e
xbx
x
x
xx
xr



は独立と )1(
211 )( rex 
残差
 
)var(
var
)var(
),cov(
1
)var(
),cov(
2
121
1
2
2121
2
2
21
1
)2(
1
x
xb
e
x
xxb
x
x
xx
xr









はと )2(
121212 )( reebx 
2e
従属
021 b
ガウスだと
無相関=独立
独立性最大=非ガウス性最大
• 相互情報量の差=非ガウス性の差 (Hyvarinen+, 2013)
• Hを最大エントロピー近似 (Hyvarinen, 1999)
• 多変数でも同様に可
– 「ペアごとに評価し, どのペアでも原因系の変数はroot
node」 (Shimizu et al., 2011)
24





















)(
)(
)(
)(),(),( )2(
1
)2(
1
2)1(
2
)1(
2
1
)2(
12
)1(
21
rsd
r
HxH
rsd
r
HxHrxIrxI
2変数の独立性でなく、
各変数のエントロピー(1次元)
を評価すればいい (計算が楽)
• 「非線形+加法の外生変数」のモデル
• いくつかの非線形性と外生変数の分布を除いて識別可能
(Zhang & Hyvarinen, 2009; Peters et al., 2014)
• Open problem: どこまで緩められるか?
非線形+加法の外生変数
 
 
  iiiii
iiii
i
x
kki
exffx
exfx
exfx
i





の親
の親
の親
1,
1
2,
-- Hoyer et al. (2008)
-- Zhang et al. (2009)
1.
2.
25
3.
-- Imoto et al. (2002)
巡回モデル
(Lacerda et al., 2008; Hyvarinen & Smith, 2013)
• モデル:
• 識別性の十分条件
– Bの固有値の絶対値が1以下(平衡状態にある)
– ループが交わらない
– 自己ループなし
x1
x2
e1
e2
x5 e5
x4e4
x3e3
26
i
ij
jijii exbx  

時系列
(Hyvarinen et al., 2008;2010)
• LiNGAM+自己回帰モデル
– 瞬間的因果構造:LiNGAM
– 時間的決定関係:自己回帰モデル
– 測定間隔と相互作用のスピード
– 計量経済学
• 構造型ベクトル自己回帰モデル
(Swanson & Granger, 1997)
)()()(
0
ttt
k
exBx  
 
x1(t)x1(t-1)
x2(t-1) x2(t)
e1(t-1)
e2(t-1)
e1(t)
e2(t)
27
仮定の評価
• ガウス性の検定
– 観測変数や外生変数(誤差)の非ガウス性チェッ
(Moneta+, 13)
• 外生変数(誤差)間の独立性検定
– 従属  潜在共通原因あり (Entner+ 2011; 2012)
• 全体的な適合度
– カイ二乗検定 (Shimizu & Kano, 2008)
• 参考: 統計的信頼性評価
– ブートストラップ (Komatsu, Shimizu & Shimodaira, 2010)
28
Talk outline
1. 動機とフレームワーク: Done!
2. 因果方向推定の基本アイデア: Done!
– 潜在共通原因「なし」の場合を例に
3. 潜在共通原因「あり」の場合の因果方向
推定
29
潜在共通原因がある場合
• 潜在共通原因 を追加 (非ガウス)
i
ij
jij
Q
q
qiqii exbfx   1

潜在共通原因がある場合の
LiNGAMモデル (Hoyer, Shimizu+, 2008)
31
ただし は独立),,1( Qqfq 
qf
x1 x2 2e1e
1f 2f
2121
1
222
1
1
111
exbfx
efx
Q
q
qq
Q
q
qq








独立としても一般性を失わない
独立な潜在共通原因
i
ij
jij
Q
q
qiqii exbfx   1

32
x1 x2 2e1e
1f
e 2f
e
x1 x2 2e1e
1
:1 f
ef 2
:2 f
ef
1f 2f
従属な潜在共通原因






























2
1
2221
11
2221
11
2
1
00
2
1
f
f
aa
a
e
e
aa
a
f
f
f
f
識別可能: 方向が違えば分布が違う
• Hoyer, Shimizu, Kerminen and Palviainen (2008)
• 忠実性
33
x1 x2
f1
x1 x2
or
fQ f1 fQ
… …
2e1e2e1e
2121
1
222
1
1
111
exbfx
efx
Q
q
qq
Q
q
qq








2
1
222
1212
1
111
efx
exbfx
Q
q
qq
Q
q
qq








1x1x
2x2x
推定アプローチ その1
• 潜在共通原因を陽にモデリングしてモデル選択
– 最尤推定 or ベイズ推定 (Hoyer+, 2008; Henao & Winther,
2011)
– 潜在共通原因の数を特定する必要 – 大変
34
x1 x2
f1 fQ
…
2e1e
2121
1
222
1
1
111
exbfx
efx
Q
q
qq
Q
q
qq








潜在共通原因を陽にモデリング
しないアプローチ
S. Shimizu and K. Bollen.
Journal of Machine Learning Research,
15: 2629-2652, 2014.
推定アプローチ その2
)(
2
m

観測は, 切片 が異なるかもしれない
LiNGAMモデルから生成される
)(
22
m
 
)1(
1x )1(
2x
)(
2
m
x
)1(
1x
)(
2
)(
121
1
)(
22
)(
2
mm
Q
q
m
qq
m
exbfx  

Key idea (1/2)
• 潜在共通原因ありのLiNGAMの別の見方:
36
x1 x2
f1 fQ…
2e1e
)1(
2e)1(
1e
)(
2
m
e)(
1
m
e
……
21b
21b
21b
)(
22
m
 
)1(
22  
m-番目の観測:
Key idea (2/2)
• 潜在共通原因の和を, 観測固有の切片として
モデル化:
• 潜在共通原因を陽にモデリングしない
– 潜在共通原因の数Qも係数 も推定不要
37
)(
2
m

)(
2
)(
121
1
)(
22
)(
2
mm
Q
q
m
qq
m
exbfx  
m-番目の観測:
q2
観測固有の切片
線形の場合は, 潜在共通原因fqの影響が
切片の違いとして現れる
• 因果方向の異なるモデルを周辺尤度で比較:
• 追加パラメータたくさん
– 混合モデル(やマルチレベルモデル)と同様
• 観測固有の切片 に事前分布 (informative)
• 他パラメータ not very informative: 分散の大きいガウス
• p(e1), p(e2): 後の実験ではラプラスで固定
)()(
121
)(
22
)(
2
)(
1
)(
11
)(
1
m
i
mmm
mmm
exbx
ex




ベイズでモデル選択
38
),,1;2,1()(
nmim
i 
)(m
i
Model 3 (x1  x2)
)(
2
)(
22
)(
2
)(
1
)(
212
)(
11
)(
1
mmm
mmmm
ex
exbx




Model 4 (x1  x2)
v
観測固有の切片の事前分布の一例
• 動機: 中心極限定理
– よりたくさんの独立な変数の和は, よりガウスに
• ベル型の分布で近似
– 後の実験では自由度 は6に固定
• ハイパーパラメータも周辺尤度で選択: 経験ベイズ
–
• 小さい : 切片が似てる
39
 

Q
q
m
qq
m
Q
q
m
qq
m
ff
1
)(
2
)(
2
1
)(
1
)(
1 , 
~)(
2
)(
1






m
m


t-分布 (標準偏差 , 相関 , 自由度 )1221, v
)},(sd0.1,),(sd2.0,0{ lll xx   }9.0,,1.0,0{12  
21,
(t-分布の代わりにガウス分布を使っても構いません)
社会学データで評価実験
社会学データ
• Source: General Social Survey (n=1380)
– Non-farm background, ages 35-44, white,
male, in the labor force, no missing data for
any of the covariates, 1972-2006
41
Status attainment model
(Duncan et al., 1972)
x2: Son’s Income
潜在共通原因を陽にモデリング
するアプローチと比較
Known (temporal)
orderings of 15 pairs
42
Son’s
Education
Father’s
Education
Son’s
Income
Father’s
Education
Son’s
Income
Son’s
Occupation
……
まとめ
• 因果分析の難しさ: 潜在共通原因
• 潜在共通原因があっても,
因果グラフを推定可能な場合がある
– 線形, 非巡回, 非ガウス
 潜在共通原因なしの場合のような拡張はおそらく可能?
• Open problems:
– 関数形をどこまで緩められるか?
– 離散の場合はどうなる? (プロビット? Cf. Muthen 02, BHMK)
• もっと適用例
– Python code順次公開予定 (今夏)
43

More Related Content

PDF
統計的因果推論への招待 -因果構造探索を中心に-
PDF
階層モデルの分散パラメータの事前分布について
PDF
統計的因果推論 勉強用 isseing333
PPTX
K shapes zemiyomi
PPTX
勾配降下法の 最適化アルゴリズム
PDF
生成モデルの Deep Learning
PDF
21世紀の手法対決 (MIC vs HSIC)
PDF
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
統計的因果推論への招待 -因果構造探索を中心に-
階層モデルの分散パラメータの事前分布について
統計的因果推論 勉強用 isseing333
K shapes zemiyomi
勾配降下法の 最適化アルゴリズム
生成モデルの Deep Learning
21世紀の手法対決 (MIC vs HSIC)
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree

What's hot (20)

PDF
『バックドア基準の入門』@統数研研究集会
PDF
Bayesian Neural Networks : Survey
PDF
pymcとpystanでベイズ推定してみた話
PPTX
ベイズファクターとモデル選択
PDF
因果探索: 基本から最近の発展までを概説
PDF
PRML輪読#9
PDF
Stanコードの書き方 中級編
PDF
星野「調査観察データの統計科学」第3章
PDF
PRML8章
PDF
グラフィカルモデル入門
PDF
混合モデルとEMアルゴリズム(PRML第9章)
PPTX
2014 3 13(テンソル分解の基礎)
PDF
[DL輪読会]近年のエネルギーベースモデルの進展
PDF
強化学習その2
PDF
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
PDF
因果探索: 観察データから 因果仮説を探索する
PDF
深層生成モデルと世界モデル
PDF
PCAの最終形態GPLVMの解説
PDF
機械学習による統計的実験計画(ベイズ最適化を中心に)
PDF
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
『バックドア基準の入門』@統数研研究集会
Bayesian Neural Networks : Survey
pymcとpystanでベイズ推定してみた話
ベイズファクターとモデル選択
因果探索: 基本から最近の発展までを概説
PRML輪読#9
Stanコードの書き方 中級編
星野「調査観察データの統計科学」第3章
PRML8章
グラフィカルモデル入門
混合モデルとEMアルゴリズム(PRML第9章)
2014 3 13(テンソル分解の基礎)
[DL輪読会]近年のエネルギーベースモデルの進展
強化学習その2
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
因果探索: 観察データから 因果仮説を探索する
深層生成モデルと世界モデル
PCAの最終形態GPLVMの解説
機械学習による統計的実験計画(ベイズ最適化を中心に)
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
Ad

Similar to 構造方程式モデルによる因果探索と非ガウス性 (18)

PDF
非ガウス性を利用した 因果構造探索
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
PDF
因果関係を時系列変化で分析
PPT
Gasshuku98
PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
PPTX
第3回nips読み会・関西『variational inference foundations and modern methods』
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PPTX
モデルベース推論の成否に 関わる要因に関する研究ーモデルの利用に着目してー
PPTX
Paper Reading, "On Causal and Anticausal Learning", ICML-12
PDF
(2020.9) 機械学習による化学反応の予測と設計
PDF
コンピューターの整列処理におけるデータ操作の時間的共起分析
PDF
20191117_choco_bayes_pub
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
データ解析のための統計モデリング入門3章後半
PDF
幾何を使った統計のはなし
PDF
確率統計-機械学習その前に v2.0
PPTX
ベイズモデリングで見る因子分析
PDF
計量経済学と 機械学習の交差点入り口 (公開用)
非ガウス性を利用した 因果構造探索
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
因果関係を時系列変化で分析
Gasshuku98
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
第3回nips読み会・関西『variational inference foundations and modern methods』
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
モデルベース推論の成否に 関わる要因に関する研究ーモデルの利用に着目してー
Paper Reading, "On Causal and Anticausal Learning", ICML-12
(2020.9) 機械学習による化学反応の予測と設計
コンピューターの整列処理におけるデータ操作の時間的共起分析
20191117_choco_bayes_pub
強化学習と逆強化学習を組み合わせた模倣学習
データ解析のための統計モデリング入門3章後半
幾何を使った統計のはなし
確率統計-機械学習その前に v2.0
ベイズモデリングで見る因子分析
計量経済学と 機械学習の交差点入り口 (公開用)
Ad

More from Shiga University, RIKEN (7)

PDF
Causal discovery and prediction mechanisms
PDF
A non-Gaussian model for causal discovery in the presence of hidden common ca...
PDF
Non-Gaussian structural equation models for causal discovery
PDF
Discovery of Linear Acyclic Models Using Independent Component Analysis
PDF
A direct method for estimating linear non-Gaussian acyclic models
PDF
Linear Non-Gaussian Structural Equation Models
PDF
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I
Causal discovery and prediction mechanisms
A non-Gaussian model for causal discovery in the presence of hidden common ca...
Non-Gaussian structural equation models for causal discovery
Discovery of Linear Acyclic Models Using Independent Component Analysis
A direct method for estimating linear non-Gaussian acyclic models
Linear Non-Gaussian Structural Equation Models
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I

構造方程式モデルによる因果探索と非ガウス性