SlideShare a Scribd company logo
DID , Synthetic Control and
CausalImpact
TokyoR #75
自己紹介
● Yusuke Kaneko
● 新卒1年目
● 東大経研統計コース → サイバーエージェント
● twitter:@coldstart_p
● github:https://github.com/ykaneko1992
● 趣味: Kaggle(Kaggle Master)
kaggleのアイコン
今日の話
Difference-in-Difference(DID),
Synthetic Control Methodの手法紹介 +
CasusalImpactパッケージの紹介
Part1.
Difference-in-Difference
(DID)
Case Study 1(最低賃金)
● 最低賃金引き上げが雇用に与える影響を考える
○ 労働経済学の理論的には「 最低賃金引き上げは雇用を減らす 」のが通説だった
○ 雇用コストが上がると企業は雇用調整を行い労働量を調整するという均衡理論に基づく
○ これが理論的に正しいのかを検証した Card and Krueger(1994)の例を取り上げる
● 1992年のニュージャージー州での最低賃金引き上げのデータを用いる
○ 最低賃金を4.25ドルから5.05ドルへ引き上げ
● この事例を用いてどのように 因果効果を検証をするのか?
Which is True?
● 一番確実な方法は,賃金引き上げを州ごとにランダムに割り当てて差を見る (RCT)
○ しかし社会的にRCTはコストが高い
○ 今回の事例ではニュージャージー州のデータがあり,それを上手く用いたい
● 特に社会的な事例ではランダムな施策割当が困難なケースが多い.
○ 主に経済学ではこのような Research Problemを持つケースが多い
○ そのため,因果推論の手法が多く開発されてきた
○ 今回はDifference-in-Difference(DID)を用いる
RCT & 因果推論
Ideas
● 処置を受けたか否かを二値変数 Tで表す
● Card and Kruegerではペンシルバニア (T=0)のデータを使用
● idea1 : 「C - A」で求める
○ これだと時間経過による影響 (トレンド)と処置による影響を分離できていないのでダメ
● idea2 : 「C - E」で求める
○ これだと元からあった AとBの差を考慮できていないのでダメ
ニュージャージー(T=1)
ペンシルバニア(T=0)
A
B
C
E
時間
引き上げ前(t0) 引き上げ後(t1)
就業率
= C-A
= C-E
DID
● 本来比べなくてはいけないのは,ニュージャージー (T=1)とニュージャージ(T=0)の差
● 上の点Cと点Dの差が因果効果( = τ)となるが,T=0の時のニュージャージーは観測不可能
● ペンシルバニアとニュージャージーのトレンドが等しい と仮定(平行トレンド仮定)
○ このとき,τは,τ = C - D = (C - A) - (E - B)で求めることが可能
○ これをDID法と呼ぶ
ニュージャージー(T=1)
ニュージャージー(T=0)
ペンシルバニア(T=0)
A
B
C
D
E
時間
引き上げ前(t0) 引き上げ後(t1)
= 因果効果
就業率
= E - B
= C-A
平行トレンド仮定
DID(R)
● Naiveに導出するならば,集計だけで可能
● 2.7で正なため「最低賃金引き上げは雇用を減らす」 という理論的な結果とは 逆の結果に
CA
B E
(C - A) - (E - B) = 2.753
回帰DID(R)
● Card and Krueger(1994)のデータでは,チェーン店か否かなどのダミー変数が存在
○ バーガーキングか,ケンタッキーか,共同経営か,など
● これらの共変量を追加して線形回帰を回すのが 回帰DID
○ lm関数で簡単に実行可能
○ 上記では,要はチェーン店などの影響をコントロールしている
● 回帰DIDには以下の例のようなメリットが有る
○ 地域ごとに固有の変数をいれることで,平行トレンド仮定を妥当にする
○ 対照群の追加や期間の追加などが可能
回帰DID(R)
● NJ変数の効果は2.78
● 集計の結果とはあまり変わらず
● (余談) : 「最低賃金引き上げは雇用を減らす」
という理論的な結果と逆になったことで色々
な反証,検証論文が出ている
Problem
● DIDの問題点として以下の 2つが挙げられる
1. 対照群の選び方
■ DIDは対照群の選び方で結果が大きく変わることが知られている
■ 研究者は主観的に平行トレンド仮定を満たすような対照群を選ぶ
■ 上記の選び方は恣意的にならざるを得ない
2. 集計データを用いることの問題
■ 集計データの不確実性が推定値に与える誤差を排除できない
● 上の2つを解決するために Synthetic Control Methodを用いる
● 「データから,適した対照群を生成する 」というのがアイディア
Part2.
Synthetic Control Method
(Synth)
Case Study 2(GDP & Terror)
● スペインのバスク地方では ETA(バスク組織と自由)という民族組織によるテロが頻発
○ ETAは1968年に初の死者が発生
○ 上は1968年から97年にかけてのバスク地方での ETAのテロ被害の要約
○ バスク地方のみで全体の約 70%, 他の地方に比べて約 37倍の年間ごと死者数
● このテロ活動が,バスク地方の GDPにどれだけ負の影響を与えたのかを分析したい
Case Study 2(GDP & Terror)
● ETAの活動記録
● 特に72年以降は毎年死者が発生死者数
Data
● Synthパッケージから取得
● バスク含めて18の地域のデータの1955年 ~ 1997年の年次データ
● 被説明変数は一人当たり実質GDP
● 以下の共変量などが存在
○ 農業やサービス業などの産業セクターの対 GDP比率
○ 人的資本として中学や高校の卒業者数 (前処理で卒業率に変換が必要 )
○ 対GDPに対する投資比率
Plot
バスク地方
Synthetic Control
● 対照群の重み付け平均を行うことで,仮想のバスク地方を構成する
● 現実のバスクの共変量との誤差が最小になるよう に,重みを構成する
● 右図の点線と実線の差がテロの影響となる
現実のバスク
テロが起きなかった
仮想のバスク
バスク以外の地区
重み付け
平均 比較
Synth Package
● detaprep関数でsynthの実行用のデータを用意
Synth Package
● synth関数で実行
現実のバスク
仮想のバスク
一番右の対照群平均から
仮想のバスクを上手く重み
付け平均で構成出来てい
る
Plot(Path)
実線が現実のバスク,点線が仮想のバスク
Plot(Gap)
現実のバスクと仮想のバスクの Gapをプロットしたもの
Placebo
● 分析の検証のためにプラシーボテストが推奨されている
● 要はバスクではなくテロの影響が薄い別の地域を処置群にしてみる
● 上のPlotはカタロニアを処置群にした時の結果 = 「マイナス効果は薄い 」
Merit
● Synthetic Controlのメリットとして以下の 2つが挙げられる
1. 対照群の選択に対して恣意性を排除可能
■ 仮想のバスクをdata-drivenに構成するため,主観性を排除可能
2. 推定値の信頼性
■ Synthetic Controlでは,バスクの各期における共変量と仮想のバスクの被説明変数が
重みが正かつ和が1になるような重み付けで表現可能という仮定をおいている
■ これにより,極度におかしな外挿値を出すことはない
Problem
● Synthetic Controlの問題点として以下の 2つが挙げられる
1. 対照群の数が多くないといけない
■ 重み付けで仮想のバスクを構成している
■ そのため,十分なサイズの対照群がないとうまく構成ができない
2. 重みにおける制約
■ 前のページにおける仮定,制約は相当強いため,検討が必要
■ 最新の研究だと重みの和についての制約を除いた拡張が出ているらしい
● 上記の問題に対して CausalImpactが提案
→ 処置0の仮想のバスクを再現するのに対照群なんていらなくない ? というアイディア
Part3.
CausalImpact
CausalImpact
● 左は先程のバスクの推定結果
● ここの処置を受けてない部分について考える
○ 処置に影響受けてない = 構造変化なし
● CausalImpactの実行
○ 点線部を状態空間モデル + MCMCで予測
Data
● Synthとの比較のためにgsynthパッケージからシミュレーションデータを使用
● 対照群45個,処置群5個で,期間20において処置がされる
CausalImpact
● id = 105を使用
● 処置前と処置後の期間を指定
● CausalImpact関数で実行
CausalImpact(Plot)
● plot関数で表示可能
● 上から,再現されたPath , 実際のid105と仮想105との差分,累積効果
CausalImpact & Synth(Path)
● SynthとCausalImpactの比較図(Path)
● Synthはid 106以降から仮想105を生成
● 処置後の傾向はある程度再現できている ?
CausalImpact & Synth(Gap)
● SynthとCausalImpactの比較図(Gap)
● 上昇傾向は一致
Merit
● CausalImpactのメリットとして以下が挙げられる
○ 対照群が必要ない
■ DIDやSynthetic Contolでは対照群が必要だった
■ データ取得の制約によって適切な対照群が得られないケースも有る
■ このようなケースにおいて上手く使える
■ (Google製なのもあり)ネット広告キャンペーンの効果推定などに使うケースあり
Problem
● CausalImpactの問題点として以下が挙げられる
○ 構造変化のショックに弱い
■ 処置後にTreatment以外に強い変動が起きた場合はその検出はできない
■ 右図は論文からの引用
■ 縦軸は推定の誤差
■ 青は構造ショックなし
■ 赤は構造ショックあり
■ 赤のほうが誤差が非常に大きい
まとめ
● DID , Synthetic Control , CausalImpactの手法紹介 + Rでの実行方法の紹介
○ 各手法の欠点などを紹介し,新規手法が提案された背景も紹介
● また,DIDやSynthetic Controlを用いた因果推論の実証例を紹介
スライドの内容について
● 内容は主に以下の論文を参照しました.
○ DID
■ CARD, DAVID, and ALAN B. KRUEGER. "Minimum Wages and Employment: A Case Study of the Fast-Food
Industry in New Jersey and Pennsylvania." The American. Economic Review84.4 (1994)..
○ Synthetic Control
■ Abadie, Alberto, Alexis Diamond, and Jens Hainmueller. "Synthetic control methods for comparative case studies:
Estimating the effect of California’s tobacco control program." Journal of the American statistical Association 105.490
(2010): 493-505.
■ Abadie, Alberto, and Javier Gardeazabal. "The economic costs of conflict: A case study of the Basque Country."
American economic review 93.1 (2003): 113-132.
■ Abadie, Alberto, Alexis Diamond, and Jens Hainmueller. "Synth: An r package for synthetic control methods in
comparative case studies." (2011).
スライドの内容について
● 内容は主に以下の論文を参照しました.
○ CausalImpact
■ Brodersen, Kay H., et al. "Inferring causal impact using Bayesian structural time-series models." The Annals of
Applied Statistics9.1 (2015): 247-274.

More Related Content

PDF
統計的因果推論勉強会 第1回
PDF
因果推論の基礎
PDF
研究発表のためのプレゼンテーション技術
PPTX
BERT分類ワークショップ.pptx
PDF
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PDF
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
PDF
Active Learning 入門
統計的因果推論勉強会 第1回
因果推論の基礎
研究発表のためのプレゼンテーション技術
BERT分類ワークショップ.pptx
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Active Learning 入門

What's hot (20)

PDF
Rでisomap(多様体学習のはなし)
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PDF
方策勾配型強化学習の基礎と応用
PPTX
Counterfaual Machine Learning(CFML)のサーベイ
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
DSIRNLP#1 ランキング学習ことはじめ
PDF
時系列予測にTransformerを使うのは有効か?
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
Stan超初心者入門
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
Sliced Wasserstein距離と生成モデル
PDF
因果探索: 基本から最近の発展までを概説
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
異常検知と変化検知 9章 部分空間法による変化点検知
PDF
Attentionの基礎からTransformerの入門まで
PDF
POMDP下での強化学習の基礎と応用
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
PDF
深層生成モデルを用いたマルチモーダル学習
PDF
Optimizer入門&最新動向
PDF
状態空間モデルの考え方・使い方 - TokyoR #38
Rでisomap(多様体学習のはなし)
変分推論法(変分ベイズ法)(PRML第10章)
方策勾配型強化学習の基礎と応用
Counterfaual Machine Learning(CFML)のサーベイ
【論文紹介】How Powerful are Graph Neural Networks?
DSIRNLP#1 ランキング学習ことはじめ
時系列予測にTransformerを使うのは有効か?
最適輸送の計算アルゴリズムの研究動向
Stan超初心者入門
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
Sliced Wasserstein距離と生成モデル
因果探索: 基本から最近の発展までを概説
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
異常検知と変化検知 9章 部分空間法による変化点検知
Attentionの基礎からTransformerの入門まで
POMDP下での強化学習の基礎と応用
[DL輪読会]Focal Loss for Dense Object Detection
深層生成モデルを用いたマルチモーダル学習
Optimizer入門&最新動向
状態空間モデルの考え方・使い方 - TokyoR #38
Ad

More from Yusuke Kaneko (7)

PDF
Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
PDF
企業の中の経済学
PDF
TokyoR_74_RDD
PDF
LightGBM: a highly efficient gradient boosting decision tree
PDF
Hastie_chapter5
PDF
How to correctly estimate the effect of online advertisement(About Double Mac...
PDF
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
企業の中の経済学
TokyoR_74_RDD
LightGBM: a highly efficient gradient boosting decision tree
Hastie_chapter5
How to correctly estimate the effect of online advertisement(About Double Mac...
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
Ad

Recently uploaded (9)

PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート

DID, Synthetic Control, CausalImpact