SlideShare a Scribd company logo
因果探索: 観察データから
因果仮説を探索する
清水昌平
大阪大学 産業科学研究所
日本社会心理学会:第3回春の方法論セミナー
関連文献はココ: https://sites.google.com/site/sshimizu06/home/lingampapers
因果探索
• 観察データから因果に関する仮説を探索
• データ+仮定  因果グラフ(パス図)
– どんな仮定の下で何が導けるか?
– 仮定の評価方法は?
2
データ行列X
観測
変
数
推定
x4
x21
x3
x57
x83
x15
+仮定
構造方程式モデリング(SEM)と
因果探索
• 社会学データ: General Social Survey (n=1380)
• パス図(因果グラフ)が正しいとして、因果の大きさを
推定
• 因果探索法のねらい: そもそもパス図を推定
3
Status attainment model
(Duncan et al., 1972)
0.16
0.30
-0.05
0.08
-0.02
0.61
0.30
0.18
χ2 = 9.484 (4 df)
SEM: 分析者は事前に判断
• 因果方向
• 潜在共通原因がない
4
y x
「潜在」共通原因はない
y x
潜在共通
原因
z
zに関する「潜在」共通原因なし
xはyの原因でない
zはyの原因
zからxへは直接効果なし
操作変数
観測済み
共通原因
そんなときに、因果探索法!
• データが分析者を助けてくれる場合もあるはず
• 仮定の按排・トレードオフ
– パス図 vs. 関数形
• そのための方法論は足りているのか?
5
足りてない!つくろう!
因果探索の方法論
因果探索法を
簡単にサーベイ
6
因果探索の基本問題
7
潜在共通原因 f 潜在共通原因f 潜在共通原因f
 
 yy
xx
efgy
efygx
,
,,

  
 yy
xx
efxgy
efgx
,,
,

  
 yy
xx
efgy
efgx
,
,


データ行列
x
y
~i.i.d. p x, y( )
obs.1
仮定: どれかが
データを生成
問題: どれが生成
したかを推定
obs.nobs.2 …
y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
因果探索: 3つのアプローチ
1. ノンパラ (Spirtes+93; Pearl00)
– 関数形にも分布にも仮定おかず  どれかわからない
2. パラメトリック
– 線形+正規分布  どれかわからない
3. セミパラ
– 線形+非正規分布  どれかわかる
8
潜在共通原因f 潜在共通原因f 潜在共通原因f
 
 yy
xx
efgy
efygx
,
,,

  
 yy
xx
efxgy
efgx
,,
,

  
 yy
xx
efgy
efgx
,
,


y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
非正規分布
• General Social Survey (米国)
– 非農業, 35-44歳, 白人、男性、就業、1972-2006
– サンプルサイズ: 1380
背景知識 (Duncan et al., 1972)
Status attainment model
x2: Son’s Income
9
適用イメージ (Shimizu & Bollen, 2014)
• 社会学データ: General Social Survey (n=1380)
• 係数の事後分布
– 収入学歴
• やっとスタート地点についた!?
10
息子収入
息子
学歴スコア
…
<
周辺尤度
息子収入
息子
学歴スコア
…
1. 時間情報がないときに因果方向を推定
2. 潜在共通原因への対処
11
Major challenges
x1 x2
?x1 x2
or
x1 x2
?x1 x2 or
f1 f1
潜在共通原因が「ない」場合
12
y x y x y xey ex ey ex ey ex
• データXから因果方向, 係数, 切片が
識別可能(一意に推定可能)
SEMにおける非正規性利用
LiNGAMモデル
(Shimizu et al., 2006, J. Machine Learning Research)
13
i
ij
jijii exbx  

x1 x2
x3
21b
23b13b
2e
3e
1e
- 非巡回
- 非正規誤差 ei
- ei は互いに独立
(潜在共通原因なし)
基礎仮定
- 線形性
識別可能: 方向が違えば分布が違う
𝑒1, 𝑒2がガウス 𝑒1, 𝑒2が非ガウス
(一様分布)
モデル1:
モデル2:
x1
x2
x1
x2
e1
e2
x1
x2
e1
e2
x1
x2
x1
x2
x1
x2
212
11
8.0 exx
ex


22
121 8.0
ex
exx


    1varvar 21  xx
    ,021  eEeE
14
相関係数は
どれも0.8
線形非正規以外にも
15
• 「非線形+加法の外生変数」のモデル
• いくつかの非線形性と外生変数の分布を除いて識別可能
(Zhang & Hyvarinen, 2009; Peters et al., 2014)
• Open problem: どこまで緩められるか?
非線形+加法の外生変数
 
 
  iiiii
iiii
i
x
kki
exffx
exfx
exfx
i





の親
の親
の親
1,
1
2,
-- Hoyer et al. (2008)
-- Zhang et al. (2009)
1.
2.
16
3.
-- Imoto et al. (2002)
巡回モデル
(Lacerda et al., 2008; Hyvarinen & Smith, 2013)
• モデル:
• 識別性の十分条件
– Bの固有値の絶対値が1未満(平衡状態にある)
– ループが交わらない
– 自己ループなし
x1
x2
e1
e2
x5 e5
x4e4
x3e3
17
i
ij
jijii exbx  

正規と非正規が混在
• PCアルゴリズム(or GES)+LiNGAM
– Hoyer+08UAI; Ramsey+11NeuroImage
18
○は誤差項が正規 □が誤差項が非正規
真 PC +LiNGAM
潜在共通原因が「ある」場合
19
潜在共通原因 f 潜在共通原因f 潜在共通原因f
y x
f
y x
f
y x
f
ey ex ey ex ey ex
この中で、どれが一番いい?
潜在共通原因がある場合
(Hoyer et al., 2008, Int. J. Approximate Reasoning
Shimizu & Bollen, 2014, J. Machine Learning Research)
• 条件: 線形性+非巡回+非正規連続分布
– 潜在共通原因の個数は特定不要
• 推定法に関する研究は発展途上
20
x1 x2
?
x1 x2
or
f1 f1
x1 x2
f1
or
21211212
11121
:
:
efxbx
efx




21212
11122121
:
:
efx
efxbx




22212
11121
:
:
efx
efx




識別可能: 方向が違えば分布が違う
• 推定: モデル選択(尤度、ベイズ etc.)
21
x1 x2
f1
x1 x2
or
fQ f1 fQ
… …
2e1e2e1e
2121
1
22
1
1
11
exbfx
efx
Q
q
qq
Q
q
qq








2
1
22
1212
1
11
efx
exbfx
Q
q
qq
Q
q
qq








1x1x
2x2x
適用イメージ (Shimizu & Bollen, 2014)
• 社会学データ: General Social Survey (n=1380)
• 係数の事後分布
– 収入学歴
• やっとスタート地点についた!?
22
息子収入
息子
学歴スコア
…
<
周辺尤度
息子収入
息子
学歴スコア
…
再
課題
23
適用分野からの要請
• 異質性・非定常性
– 人により時点により因果関係が異なる
– 潜在調整変数もココか
• 出始めた: Huang+IJCAI15
24
経済学: Moneta+13, Oxford B Econ. Stat.
利益(t)
雇用(t)
売上(t)
R&D(t)
雇用(t+1)
売上(t+1)
R&D(t+1)
利益(t+1)
雇用(t+2)
売上(t+2)
R&D(t+2)
利益(t+2)
脳: Mills-Finnerty+14, NeuroImage
潜在中間変数?
• 風が吹けば…
• 時系列データにおけるサブサンプリングの影響
(Gong+15ICML; Hyttinen+16; cf. Hyvarinen+10)
25
サブサンプリング
復元?t-2時点 t-1時点 t時点 t-2時点 t時点
図はHyttinen+16より
未知のこと多い
• 潜在共通原因を許しつつ
どこまで拡張できるのか?
– 非線形性、巡回性、異質性、非定常性
– 局所解は避けたい
• 離散変数の場合は?混在する場合は?
– Peters+11TPAM, Parks+15NIPS
• 選択バイアスのある場合は?(+αある?)
• 一般的話題(?)も必要
– はずれ値?
– 変数変換?
26
仮定の評価
• 正規性の検定
– 観測変数や外生変数(誤差)の非正規性チェッ
(Moneta+13)
• 外生変数(誤差)間の独立性検定
– 従属  潜在共通原因あり (Entner+ 2011; 2012)
• 全体的な適合度
– カイ二乗検定 (Shimizu & Kano, 2008)
• 参考: 統計的信頼性評価
– ブートストラップ (Komatsu, Shimizu & Shimodaira, 2010)
27
おわりに
• 因果推論の数理的基盤はかなり整った
– Rubin, Pearl, …
• 因果探索の方法論をつくろう/使ってみよう
– どんな状況で何が何の原因で結果か
• 未知の事柄は多い
– さぁ、これからです!
28

More Related Content

PDF
因果探索: 基本から最近の発展までを概説
PDF
統計的因果推論への招待 -因果構造探索を中心に-
PDF
構造方程式モデルによる因果探索と非ガウス性
PDF
非ガウス性を利用した 因果構造探索
PPTX
重回帰分析で交互作用効果
PDF
階層ベイズとWAIC
PDF
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
PDF
因果推論の基礎
因果探索: 基本から最近の発展までを概説
統計的因果推論への招待 -因果構造探索を中心に-
構造方程式モデルによる因果探索と非ガウス性
非ガウス性を利用した 因果構造探索
重回帰分析で交互作用効果
階層ベイズとWAIC
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
因果推論の基礎

What's hot (20)

PDF
PRMLの線形回帰モデル(線形基底関数モデル)
PDF
Stanコードの書き方 中級編
PPTX
ベイズ統計学の概論的紹介
PDF
相関と因果について考える:統計的因果推論、その(不)可能性の中心
PDF
因果推論の奥へ: "What works" meets "why it works"
ZIP
今さら聞けないカーネル法とサポートベクターマシン
PDF
星野「調査観察データの統計科学」第3章
PDF
ベイズ推論による機械学習入門 第4章
PPTX
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
PDF
ベイズ統計入門
PDF
最急降下法
PDF
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
PDF
行列計算を利用したデータ解析技術
PPTX
GEE(一般化推定方程式)の理論
PDF
DID, Synthetic Control, CausalImpact
PDF
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
PDF
ベイズ推論とシミュレーション法の基礎
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
Sparse estimation tutorial 2014
PPTX
心理学者のためのGlmm・階層ベイズ
PRMLの線形回帰モデル(線形基底関数モデル)
Stanコードの書き方 中級編
ベイズ統計学の概論的紹介
相関と因果について考える:統計的因果推論、その(不)可能性の中心
因果推論の奥へ: "What works" meets "why it works"
今さら聞けないカーネル法とサポートベクターマシン
星野「調査観察データの統計科学」第3章
ベイズ推論による機械学習入門 第4章
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
ベイズ統計入門
最急降下法
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
行列計算を利用したデータ解析技術
GEE(一般化推定方程式)の理論
DID, Synthetic Control, CausalImpact
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
ベイズ推論とシミュレーション法の基礎
[DL輪読会]相互情報量最大化による表現学習
Sparse estimation tutorial 2014
心理学者のためのGlmm・階層ベイズ
Ad

Viewers also liked (9)

PDF
A non-Gaussian model for causal discovery in the presence of hidden common ca...
PDF
統計的因果推論 勉強用 isseing333
PDF
エクセルで統計分析 統計プログラムHADについて
PDF
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I
PDF
Linear Non-Gaussian Structural Equation Models
PDF
Discovery of Linear Acyclic Models Using Independent Component Analysis
PDF
Non-Gaussian structural equation models for causal discovery
PDF
『バックドア基準の入門』@統数研研究集会
PPTX
ようやく分かった!最尤推定とベイズ推定
A non-Gaussian model for causal discovery in the presence of hidden common ca...
統計的因果推論 勉強用 isseing333
エクセルで統計分析 統計プログラムHADについて
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I
Linear Non-Gaussian Structural Equation Models
Discovery of Linear Acyclic Models Using Independent Component Analysis
Non-Gaussian structural equation models for causal discovery
『バックドア基準の入門』@統数研研究集会
ようやく分かった!最尤推定とベイズ推定
Ad

Similar to 因果探索: 観察データから 因果仮説を探索する (12)

PDF
反応時間データをどう分析し図示するか
PDF
Stan で欠測データの相関係数を推定してみた
PDF
20191117_choco_bayes_pub
PDF
Introduction to statistics
PDF
Scdp100421 yasuda
PDF
統計学基礎
PDF
みどりぼん読書会 第4章
PDF
一般化線形混合モデル入門の入門
PDF
傾向スコアでみる ソーシャルネットワーク分析
PDF
20150303ぞくパタLT-ゆるふわ構造学習
PPTX
Tokyo.R #46 Cox比例ハザードモデルとその周辺
PPT
Gasshuku98
反応時間データをどう分析し図示するか
Stan で欠測データの相関係数を推定してみた
20191117_choco_bayes_pub
Introduction to statistics
Scdp100421 yasuda
統計学基礎
みどりぼん読書会 第4章
一般化線形混合モデル入門の入門
傾向スコアでみる ソーシャルネットワーク分析
20150303ぞくパタLT-ゆるふわ構造学習
Tokyo.R #46 Cox比例ハザードモデルとその周辺
Gasshuku98

因果探索: 観察データから 因果仮説を探索する