SlideShare a Scribd company logo
2017/07/19@統計的学習のエレメンツ読み会 #7
The Elements of Statistical Learning
Chapter 8: Model Inference and Averaging
大塚 優@NTTデータ
Overview
1
■Model Inference Methods
8.2 The Bootstrap and Maximum Likelihood Methods
8.3 Bayesian Methods
8.4 Relationship Between the Bootstrap and Bayesian Inference
■Calculation Techniques in Model Inference
8.5 The EM Algorithm
8.6 MCMC for Sampling from the Posterior
■Ensemble Methods
8.7 Bagging
8.8 Model Averaging and Stacking
8.9 Stochastic Search: Bumping
Model Inference Methods
2
The Bootstrap and Maximum Likelihood Methods
スプライン平滑化の例
・スプライン平滑化の例を通して、各種モデル推定の方法論
(最小二乗法,Bootstrap,最尤法,ベイズ推定)を俯瞰する。
3
データの散布図 3次B-spline基底
生成モデル: 𝑦𝑖 = 𝜇 𝑥𝑖 + 𝜀𝑖 ,
SETUP
𝛽𝑗:回帰係数(未知パラメータ), ℎ𝑗(𝑥):B-spline基底, 𝜀𝑖:観測誤差
E 𝜀𝑖 = 0, 𝑉𝑎𝑟 𝜀𝑖 = 𝜎2(未知パラメータ) for all 𝑖
𝐲 = 𝐇𝛃 + 𝛆𝜇 𝑥𝑖 =
𝑗=1
7
𝛽𝑗ℎ𝑗 𝑥𝑖 = 𝜷 𝑇
𝒉(𝑥𝑖)
𝐲 = 𝑦𝑖, … , 𝑦 𝑁
𝑇, 𝜷 = 𝛽1, … , 𝛽7
𝑇, 𝒉 𝑥𝑖 = ℎ1 𝑥𝑖 , … , ℎ7 𝑥𝑖
𝑇, 𝐇 = 𝒉 𝑥1 , … , 𝒉 𝑥 𝑁
𝑇
The Bootstrap and Maximum Likelihood Methods
最小二乗法による平滑化
・前項のモデルの回帰係数を最小二乗法で推定
𝛃LS = argmin
𝛃
||𝐇𝛃 − 𝐲||2 = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲
⇨ 平滑化曲線: 𝜇 𝑥 = 𝛃LS
𝑇
𝒉(𝑥)
・ 𝛃LSの分散は、 𝐇 𝑇 𝐇 −1 𝜎2 となり、適当な𝜎2の推定量 𝜎2を
プラグインすることで、 𝛃LSの分散の推定量を構成
𝑉𝑎𝑟 𝛃LS = 𝐇 𝑇 𝐇 −1 𝜎2 𝜎2の例:
・上記結果から平滑化曲線の標準誤差の推定値が得られる
𝑆𝐷 𝜇 𝑥 = 𝑆𝐷[ 𝛃LS
𝑇
𝒉(𝑥)] = 𝒉 𝑥 𝑇
𝐇 𝑇
𝐇 −1
𝒉 𝑥
1
2 𝜎
4
1
𝑁 − 7
𝑖=1
𝑁
𝑦𝑖 − 𝜇 𝑥𝑖
2
The Bootstrap and Maximum Likelihood Methods
最小二乗法による平滑化の結果
・最小二乗法による平滑化曲線(実線)と95%信頼区間(破線)
信頼区間を構築するため、 𝜇 𝑥 が正規分布することを仮定
(=観測誤差εに正規性を仮定)
The Bootstrap and Maximum Likelihood Methods
Bootstrapについて
・経験分布を母集団分布と見立て、経験分布からのリサンプリン
グにより統計的推測を行う方法
(例)θの推定量θに対する𝛼%信頼区間の構築
下記の手続きを𝑏 = 1, … , 𝐵回行う
1. 経験分布からN個データを復元抽出し、データセットを構成。
2. 得られたデータセットから推定量θ 𝑏を計算(Bootstrap標本)
Bootstrap標本集合の100 · 𝛼/2%点を信頼区間下限、100 · (1 − 𝛼/2)%点を信頼
区間上限の推定値とする
6
The Bootstrap and Maximum Likelihood Methods
Bootstrapによる平滑化の結果
・スプライン平滑化の例について、Bootstrapにより
平滑化曲線 𝜇 𝑥 の信頼区間を推測する
・B=200として95%信頼区間を構築
7
𝜇 𝑥 のBootstrap標本
Bootstrap標本の平均(実線)と
95%信頼区間(破線)
The Bootstrap and Maximum Likelihood Methods
平滑化結果の比較(最小二乗法 vs Bootstrap)
[Discussion]最小二乗法とBootstrap、どちらが妥当な結果?
8
最小二乗法
Bootstrap
The Bootstrap and Maximum Likelihood Methods
最尤法について
・確率変数𝑍がパラメータ𝜃を持つ確率密度𝑔 𝜃(𝑧)に従うと
仮定し、得られたデータに最もフィットする𝜃を知りたい
・𝑍の独立な𝑁個の実現値𝑧𝑖(𝑖 = 1, . . , 𝑁)が得られているとき、
尤度関数𝐿 𝑍; 𝜃 は以下で与えられる
𝐿 𝑍; 𝜃 =
𝑖=1
𝑁
𝑔 𝜃(𝑧𝑖)
・𝐿 𝑍; 𝜃 の自然対数は対数尤度関数と呼ばれる
𝑙 𝑍; 𝜃 = 𝑙𝑜𝑔𝐿 𝑍; 𝜃 =
𝑖=1
𝑁
log 𝑔 𝜃(𝑧𝑖) (𝑙 𝜃 と略記する場合あり)
・尤度関数、もしくは対数尤度関数を最大にするパラメータを
𝜃の最尤推定量と呼ぶ
𝜃MLE = argm𝑎𝑥
𝜃
𝐿 𝑍; 𝜃 = argm𝑎𝑥
𝜃
𝑙 𝑍; 𝜃
9
The Bootstrap and Maximum Likelihood Methods
最尤推定量の統計的性質
・𝑁 → ∞で真のパラメータ𝜃0に確率収束する(漸近不偏性)
𝜃MLE →
𝑃
𝜃0
・ 𝑁 → ∞で正規分布に分布収束する(漸近正規性)
𝜃MLE →
𝑑
𝑁 𝜃0, 𝐼 𝜃0
−1
, 𝐼 𝜃0 : Fisher情報行列
・ 𝑁 → ∞で不偏推定量のClassの中で最小分散となる(漸近有効性)
cf. Cramér-Raoの不等式
𝑉𝑎𝑟 𝜃MLE ≤ 𝑉𝑎𝑟 𝜃U𝐵 , 𝜃U𝐵 ⊆ (全ての不偏推定量)
10
The Bootstrap and Maximum Likelihood Methods
最尤法による平滑化
・平滑化の例について、最尤法でパラメータ推定を行う
・観測誤差εが𝑁 0, 𝜎2 に従うと仮定すると、観測変数𝑦は
𝑁 𝛃 𝑇 𝒉(𝑥𝑖) , 𝜎2 に従うので、対数尤度関数と最尤推定量は
𝑙 𝛃, 𝜎2
= −
1
𝑁
𝑙𝑜𝑔𝜎2
2𝜋 −
1
2𝜎2
𝑖=1
𝑁
(𝑦𝑖 − 𝛃 𝑇
𝒉(𝑥𝑖))
𝛃MLE = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 (最小二乗法の結果と一致)
𝜎MLE =
1
𝑁 𝑖=1
𝑁
𝑦𝑖 − 𝛃MLE
𝑇
𝒉 𝑥𝑖
2
(不偏性を持たないことに注意)
11
Bayesian Methods
ベイズ推論による事後分布の推測
・これまではパラメータ𝜃を定数として扱ってきたが、
ベイズ推論では、 𝜃が確率変動するものとして扱う
・データ𝑍が与えられたもとで、パラメータ𝜃の事後分布
Pr(𝜃|𝑍)はベイズの定理により以下で与えられる。
Pr 𝜃 𝑍 =
Pr 𝑍 𝜃 Pr(𝜃)
𝑍 Pr 𝑍 𝜃 Pr(𝜃)
Pr 𝑍 𝜃 : 𝑍の尤度, Pr(𝜃): 𝜃の事前分布
・ベイズ推論におけるパラメータの点推定の方法として、
事後分布の最大値(MAP推定量)がよく用いられる
𝜃M𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃[Pr 𝜃 𝑍 ]
12
Bayesian Methods
ベイズ推論による平滑化
・平滑化の例について、パラメータ𝛃に事前分布を導入する
ことでベイズ推論を行う。(簡単のため𝜎2
は既知とする)
・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏Σ を考えたとき
のパラメータ𝛃のMAP推定量は
𝛃MLE = 𝐇 𝑇 𝐇 +
𝜎2
𝜏
Σ
−1
𝐇 𝑇 𝐲 (Ridge推定量と一致)
・ 𝛃の事前分布として、ラプラス分布を考えるとパラメータ
𝛃のMAP推定量はLASSO推定量と一致する
13
Bayesian Methods
ベイズ推論による平滑化の結果
・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏𝐼 を考えた場合
の平滑化結果
14
Calculation Techniques
in Model Inference
15
The EM Algorithm
EMアルゴリズムについて
・不完全なデータから最尤推定量を導くアルゴリズム
・ EMアルゴリズムが用いられるケース
・混合分布のパラメータ推定
・隠れマルコフモデルのパラメータ推定
・説明変数に欠損のあるデータでの最尤推定
・目的変数に欠損のあるデータでの最尤推定(半教師あり学習)
・罰則付き最尤法のパラメータ推定
・次の2つのステップを繰り返すことで尤度関数を最大化する
E-step: 観測データ𝑦と 𝜃 の暫定値が与えられた下で、完全デー
タの対数尤度の条件付期待値(Q関数)を計算するステップ
M-step: E-stepで求めたQ関数を最大化する𝜃を求めるステップ
16
The EM Algorithm
混合正規分布の例
・以下のような多峰性を持つデータの確率分布として、混合正規
分布がよく用いられる
17
𝑌1~N(μ1, Σ1)
𝑌2~N(μ2, Σ2)
𝑌 = 1 − ∆ ⋅ 𝑌1 + ∆ ⋅ 𝑌2
⇨ 𝑔 𝑌 𝑦 = 1 − 𝜋 𝜙 𝜃1
𝑦𝑖 + 𝜋𝜙 𝜃2
𝑦𝑖
where ∆∈ 0,1 with Pr ∆= 1 = 𝜋
The EM Algorithm
混合正規分布の例
・観測データ𝑦𝑖(i = 1, … , N)が得られているときの対数尤度関数
𝑙 𝑍; 𝜃 =
𝑖=1
𝑁
𝑙𝑜𝑔[ 1 − 𝜋 𝜙 𝜃1
𝑦𝑖 + 𝜋𝜙 𝜃2
𝑦𝑖 ]
⇨ 𝑙 𝑍; 𝜃 の極値は陽に求められない
・そこで、潜在変数∆𝑖が仮に観測された場合の対数尤度
(完全対数尤度)を考えると
𝑙0 𝑍; 𝜃, ∆
=
𝑖=1
𝑁
[ 1 − ∆𝑖 𝑙𝑜𝑔𝜙 𝜃1
𝑦𝑖 + ∆𝑖 𝑙𝑜𝑔𝜙 𝜃2
𝑦𝑖 ] +
𝑖=1
𝑁
[ 1 − ∆𝑖 𝑙𝑜𝑔 1 − 𝜋 + ∆𝑖 𝑙𝑜𝑔𝜋]
⇨ 𝑙0 𝑍; 𝜃, ∆ の極値は陽に求めるられる
18
The EM Algorithm
混合正規分布の例
・もちろん潜在変数∆𝑖は観測されていないので、完全対数尤度は
計算できない
⇨ データZ, パラメータ𝜃が与えられた元での条件付き期待値
(Expectation)で代用する
⇨ EM AlgorithmのE-stepに対応
・パラメータ𝜃はどう決める?
⇨ E-stepで求めた条件付き期待値が最大(Maximization)になる
𝜃′を見つける
⇨ EM AlgorithmのM-stepに対応
・この手続きをパラメータ𝜃が収束するまで交互に繰り返す
19
The EM Algorithm
混合正規分布の例
・混合正規分布の例における具体的なアルゴリズムは以下の通り
20
The EM Algorithm
一般的なEMアルゴリズム
・一般的なEMアルゴリズムは以下の通り
21
The EM Algorithm
EMアルゴリズムの妥当性
𝑍: 観測データ, 𝑍 𝑚
: 欠損データ, 𝑇 = (𝑍, 𝑍 𝑚
) ,
𝜃′:更新パラメータ(変数), 𝜃 :更新前パラメータ(定数)
・(8.45)式から観測データに対する対数尤度関数は下記の通り
𝑙 𝜃′; 𝑍 = 𝑙0 𝜃′; 𝑇 − 𝑙1 𝜃′; 𝑍 𝑚 𝑍
= 𝐸[𝑙0 𝜃′; 𝑇 𝑍, 𝜃 − 𝐸 𝑙1 𝜃′; 𝑍 𝑚 𝑍 𝑍, 𝜃
= 𝑄 𝜃′
, 𝜃 − 𝑅 𝜃′
, 𝜃
・更新前後での尤度を比較すると
𝑙 𝜃′
; 𝑍 − 𝑙 𝜃; 𝑍 = 𝑄 𝜃′
, 𝜃 − 𝑄 𝜃, 𝜃 − [𝑅 𝜃′
, 𝜃 − 𝑅 𝜃, 𝜃 ]
・1項目はM-stepにより明らかに0以上
・2項目を評価すると
𝑅 𝜃′
, 𝜃 − 𝑅 𝜃, 𝜃 = −𝐸 𝑍 𝑚|𝑍,𝜃 log
𝑃𝑟 𝑍 𝑚 𝑍, 𝜃
𝑃𝑟 𝑍 𝑚
𝑍, 𝜃′
= −𝐾𝐿 𝑃𝑟 𝑍 𝑚
𝑍, 𝜃 , 𝑃𝑟 𝑍 𝑚
𝑍, 𝜃′
≤ 0
Hence, 𝑙 𝜃′
; 𝑍 − 𝑙 𝜃; 𝑍 ≥ 0 22
MCMC for Sampling from the Posterior
MCMCについて
・ベイズ推論において、解析的に導出が困難な事後分布をモンテ
カルロ法により求める方法
・定常分布が事後分布になるようなマルコフ連鎖を構成する
・Gibbsサンプラー(完全条件付分布からの逐次サンプリング)
・M-Hアルゴリズム(尤度比を用いた棄却法)
・他のアプリケーションとしては、数え上げ問題、分割表の確率
計算(Fisherの正確確率検定)など
23
MCMC for Sampling from the Posterior
Gibbsサンプラーについて
・同時分布の解析導出、もしくはサンプリングが困難だが、条件
付き分布からのサンプリングが容易な場合に有効なアルゴリズム
24
MCMC for Sampling from the Posterior
混合分布の例での具体的なアルゴリズム
25
事後分布の収束の様子

More Related Content

PPTX
データ解析のための統計モデリング入門4章
PDF
幾何を使った統計のはなし
PDF
データ解析のための統計モデリング入門3章後半
PDF
みどりぼん3章前半
PPTX
第五回統計学勉強会@東大駒場
PDF
みどりぼん読書会 第4章
PDF
データ解析のための統計モデリング入門 6.5章 後半
PDF
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
データ解析のための統計モデリング入門4章
幾何を使った統計のはなし
データ解析のための統計モデリング入門3章後半
みどりぼん3章前半
第五回統計学勉強会@東大駒場
みどりぼん読書会 第4章
データ解析のための統計モデリング入門 6.5章 後半
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

What's hot (20)

PDF
Maeshori missing
PDF
カステラ本勉強会 第三回 補足
PPTX
マルコフ連鎖モンテカルロ法と多重代入法
PDF
第六回「データ解析のための統計モデリング入門」前半
PPT
ma92007id395
PPTX
統計的学習の基礎_3章
PDF
クラシックな機械学習の入門 4. 学習データと予測性能
PDF
PRML輪読#11
PDF
PRML 1.5-1.5.5 決定理論
PDF
カステラ本勉強会 第三回
PPTX
ようやく分かった!最尤推定とベイズ推定
PDF
DARM勉強会第3回 (missing data analysis)
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PDF
ビジネス活用事例で学ぶデータサイエンス入門 #2
PPTX
PRML読み会第一章
PPTX
データ解析入門
PDF
計量経済学と 機械学習の交差点入り口 (公開用)
PPTX
効用最大化理論の観点から見る強化学習
PDF
統計的学習の基礎 3章前半
PDF
PRML11章
Maeshori missing
カステラ本勉強会 第三回 補足
マルコフ連鎖モンテカルロ法と多重代入法
第六回「データ解析のための統計モデリング入門」前半
ma92007id395
統計的学習の基礎_3章
クラシックな機械学習の入門 4. 学習データと予測性能
PRML輪読#11
PRML 1.5-1.5.5 決定理論
カステラ本勉強会 第三回
ようやく分かった!最尤推定とベイズ推定
DARM勉強会第3回 (missing data analysis)
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
ビジネス活用事例で学ぶデータサイエンス入門 #2
PRML読み会第一章
データ解析入門
計量経済学と 機械学習の交差点入り口 (公開用)
効用最大化理論の観点から見る強化学習
統計的学習の基礎 3章前半
PRML11章
Ad

Similar to [The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging (20)

PDF
パターン認識 04 混合正規分布
PDF
混合ガウスモデルとEMアルゴリスム
PDF
Oshasta em
PDF
Bishop prml 9.3_wk77_100408-1504
PDF
クラシックな機械学習の入門  9. モデル推定
PDF
Hyperoptとその周辺について
PPTX
続・わかりやすいパターン認識 9章
PDF
PRML輪読#9
PDF
クラシックな機械学習入門 1 導入
PDF
prml_titech_9.0-9.2
PPTX
頻度論とベイズ論と誤差最小化について
PPTX
Bootstrap methodの勉強メモ
PDF
PRML復々習レーン#15 前回までのあらすじ
PPTX
ブートストラップ法とその周辺とR
PDF
SGD+α: 確率的勾配降下法の現在と未来
PDF
TokyoWebmining統計学部 第1回
PDF
PRML 上 1.2.4 ~ 1.2.6
PDF
bigdata2012ml okanohara
PDF
情報幾何勉強会 EMアルゴリズム
パターン認識 04 混合正規分布
混合ガウスモデルとEMアルゴリスム
Oshasta em
Bishop prml 9.3_wk77_100408-1504
クラシックな機械学習の入門  9. モデル推定
Hyperoptとその周辺について
続・わかりやすいパターン認識 9章
PRML輪読#9
クラシックな機械学習入門 1 導入
prml_titech_9.0-9.2
頻度論とベイズ論と誤差最小化について
Bootstrap methodの勉強メモ
PRML復々習レーン#15 前回までのあらすじ
ブートストラップ法とその周辺とR
SGD+α: 確率的勾配降下法の現在と未来
TokyoWebmining統計学部 第1回
PRML 上 1.2.4 ~ 1.2.6
bigdata2012ml okanohara
情報幾何勉強会 EMアルゴリズム
Ad

[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging

  • 1. 2017/07/19@統計的学習のエレメンツ読み会 #7 The Elements of Statistical Learning Chapter 8: Model Inference and Averaging 大塚 優@NTTデータ
  • 2. Overview 1 ■Model Inference Methods 8.2 The Bootstrap and Maximum Likelihood Methods 8.3 Bayesian Methods 8.4 Relationship Between the Bootstrap and Bayesian Inference ■Calculation Techniques in Model Inference 8.5 The EM Algorithm 8.6 MCMC for Sampling from the Posterior ■Ensemble Methods 8.7 Bagging 8.8 Model Averaging and Stacking 8.9 Stochastic Search: Bumping
  • 4. The Bootstrap and Maximum Likelihood Methods スプライン平滑化の例 ・スプライン平滑化の例を通して、各種モデル推定の方法論 (最小二乗法,Bootstrap,最尤法,ベイズ推定)を俯瞰する。 3 データの散布図 3次B-spline基底 生成モデル: 𝑦𝑖 = 𝜇 𝑥𝑖 + 𝜀𝑖 , SETUP 𝛽𝑗:回帰係数(未知パラメータ), ℎ𝑗(𝑥):B-spline基底, 𝜀𝑖:観測誤差 E 𝜀𝑖 = 0, 𝑉𝑎𝑟 𝜀𝑖 = 𝜎2(未知パラメータ) for all 𝑖 𝐲 = 𝐇𝛃 + 𝛆𝜇 𝑥𝑖 = 𝑗=1 7 𝛽𝑗ℎ𝑗 𝑥𝑖 = 𝜷 𝑇 𝒉(𝑥𝑖) 𝐲 = 𝑦𝑖, … , 𝑦 𝑁 𝑇, 𝜷 = 𝛽1, … , 𝛽7 𝑇, 𝒉 𝑥𝑖 = ℎ1 𝑥𝑖 , … , ℎ7 𝑥𝑖 𝑇, 𝐇 = 𝒉 𝑥1 , … , 𝒉 𝑥 𝑁 𝑇
  • 5. The Bootstrap and Maximum Likelihood Methods 最小二乗法による平滑化 ・前項のモデルの回帰係数を最小二乗法で推定 𝛃LS = argmin 𝛃 ||𝐇𝛃 − 𝐲||2 = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 ⇨ 平滑化曲線: 𝜇 𝑥 = 𝛃LS 𝑇 𝒉(𝑥) ・ 𝛃LSの分散は、 𝐇 𝑇 𝐇 −1 𝜎2 となり、適当な𝜎2の推定量 𝜎2を プラグインすることで、 𝛃LSの分散の推定量を構成 𝑉𝑎𝑟 𝛃LS = 𝐇 𝑇 𝐇 −1 𝜎2 𝜎2の例: ・上記結果から平滑化曲線の標準誤差の推定値が得られる 𝑆𝐷 𝜇 𝑥 = 𝑆𝐷[ 𝛃LS 𝑇 𝒉(𝑥)] = 𝒉 𝑥 𝑇 𝐇 𝑇 𝐇 −1 𝒉 𝑥 1 2 𝜎 4 1 𝑁 − 7 𝑖=1 𝑁 𝑦𝑖 − 𝜇 𝑥𝑖 2
  • 6. The Bootstrap and Maximum Likelihood Methods 最小二乗法による平滑化の結果 ・最小二乗法による平滑化曲線(実線)と95%信頼区間(破線) 信頼区間を構築するため、 𝜇 𝑥 が正規分布することを仮定 (=観測誤差εに正規性を仮定)
  • 7. The Bootstrap and Maximum Likelihood Methods Bootstrapについて ・経験分布を母集団分布と見立て、経験分布からのリサンプリン グにより統計的推測を行う方法 (例)θの推定量θに対する𝛼%信頼区間の構築 下記の手続きを𝑏 = 1, … , 𝐵回行う 1. 経験分布からN個データを復元抽出し、データセットを構成。 2. 得られたデータセットから推定量θ 𝑏を計算(Bootstrap標本) Bootstrap標本集合の100 · 𝛼/2%点を信頼区間下限、100 · (1 − 𝛼/2)%点を信頼 区間上限の推定値とする 6
  • 8. The Bootstrap and Maximum Likelihood Methods Bootstrapによる平滑化の結果 ・スプライン平滑化の例について、Bootstrapにより 平滑化曲線 𝜇 𝑥 の信頼区間を推測する ・B=200として95%信頼区間を構築 7 𝜇 𝑥 のBootstrap標本 Bootstrap標本の平均(実線)と 95%信頼区間(破線)
  • 9. The Bootstrap and Maximum Likelihood Methods 平滑化結果の比較(最小二乗法 vs Bootstrap) [Discussion]最小二乗法とBootstrap、どちらが妥当な結果? 8 最小二乗法 Bootstrap
  • 10. The Bootstrap and Maximum Likelihood Methods 最尤法について ・確率変数𝑍がパラメータ𝜃を持つ確率密度𝑔 𝜃(𝑧)に従うと 仮定し、得られたデータに最もフィットする𝜃を知りたい ・𝑍の独立な𝑁個の実現値𝑧𝑖(𝑖 = 1, . . , 𝑁)が得られているとき、 尤度関数𝐿 𝑍; 𝜃 は以下で与えられる 𝐿 𝑍; 𝜃 = 𝑖=1 𝑁 𝑔 𝜃(𝑧𝑖) ・𝐿 𝑍; 𝜃 の自然対数は対数尤度関数と呼ばれる 𝑙 𝑍; 𝜃 = 𝑙𝑜𝑔𝐿 𝑍; 𝜃 = 𝑖=1 𝑁 log 𝑔 𝜃(𝑧𝑖) (𝑙 𝜃 と略記する場合あり) ・尤度関数、もしくは対数尤度関数を最大にするパラメータを 𝜃の最尤推定量と呼ぶ 𝜃MLE = argm𝑎𝑥 𝜃 𝐿 𝑍; 𝜃 = argm𝑎𝑥 𝜃 𝑙 𝑍; 𝜃 9
  • 11. The Bootstrap and Maximum Likelihood Methods 最尤推定量の統計的性質 ・𝑁 → ∞で真のパラメータ𝜃0に確率収束する(漸近不偏性) 𝜃MLE → 𝑃 𝜃0 ・ 𝑁 → ∞で正規分布に分布収束する(漸近正規性) 𝜃MLE → 𝑑 𝑁 𝜃0, 𝐼 𝜃0 −1 , 𝐼 𝜃0 : Fisher情報行列 ・ 𝑁 → ∞で不偏推定量のClassの中で最小分散となる(漸近有効性) cf. Cramér-Raoの不等式 𝑉𝑎𝑟 𝜃MLE ≤ 𝑉𝑎𝑟 𝜃U𝐵 , 𝜃U𝐵 ⊆ (全ての不偏推定量) 10
  • 12. The Bootstrap and Maximum Likelihood Methods 最尤法による平滑化 ・平滑化の例について、最尤法でパラメータ推定を行う ・観測誤差εが𝑁 0, 𝜎2 に従うと仮定すると、観測変数𝑦は 𝑁 𝛃 𝑇 𝒉(𝑥𝑖) , 𝜎2 に従うので、対数尤度関数と最尤推定量は 𝑙 𝛃, 𝜎2 = − 1 𝑁 𝑙𝑜𝑔𝜎2 2𝜋 − 1 2𝜎2 𝑖=1 𝑁 (𝑦𝑖 − 𝛃 𝑇 𝒉(𝑥𝑖)) 𝛃MLE = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 (最小二乗法の結果と一致) 𝜎MLE = 1 𝑁 𝑖=1 𝑁 𝑦𝑖 − 𝛃MLE 𝑇 𝒉 𝑥𝑖 2 (不偏性を持たないことに注意) 11
  • 13. Bayesian Methods ベイズ推論による事後分布の推測 ・これまではパラメータ𝜃を定数として扱ってきたが、 ベイズ推論では、 𝜃が確率変動するものとして扱う ・データ𝑍が与えられたもとで、パラメータ𝜃の事後分布 Pr(𝜃|𝑍)はベイズの定理により以下で与えられる。 Pr 𝜃 𝑍 = Pr 𝑍 𝜃 Pr(𝜃) 𝑍 Pr 𝑍 𝜃 Pr(𝜃) Pr 𝑍 𝜃 : 𝑍の尤度, Pr(𝜃): 𝜃の事前分布 ・ベイズ推論におけるパラメータの点推定の方法として、 事後分布の最大値(MAP推定量)がよく用いられる 𝜃M𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃[Pr 𝜃 𝑍 ] 12
  • 14. Bayesian Methods ベイズ推論による平滑化 ・平滑化の例について、パラメータ𝛃に事前分布を導入する ことでベイズ推論を行う。(簡単のため𝜎2 は既知とする) ・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏Σ を考えたとき のパラメータ𝛃のMAP推定量は 𝛃MLE = 𝐇 𝑇 𝐇 + 𝜎2 𝜏 Σ −1 𝐇 𝑇 𝐲 (Ridge推定量と一致) ・ 𝛃の事前分布として、ラプラス分布を考えるとパラメータ 𝛃のMAP推定量はLASSO推定量と一致する 13
  • 17. The EM Algorithm EMアルゴリズムについて ・不完全なデータから最尤推定量を導くアルゴリズム ・ EMアルゴリズムが用いられるケース ・混合分布のパラメータ推定 ・隠れマルコフモデルのパラメータ推定 ・説明変数に欠損のあるデータでの最尤推定 ・目的変数に欠損のあるデータでの最尤推定(半教師あり学習) ・罰則付き最尤法のパラメータ推定 ・次の2つのステップを繰り返すことで尤度関数を最大化する E-step: 観測データ𝑦と 𝜃 の暫定値が与えられた下で、完全デー タの対数尤度の条件付期待値(Q関数)を計算するステップ M-step: E-stepで求めたQ関数を最大化する𝜃を求めるステップ 16
  • 18. The EM Algorithm 混合正規分布の例 ・以下のような多峰性を持つデータの確率分布として、混合正規 分布がよく用いられる 17 𝑌1~N(μ1, Σ1) 𝑌2~N(μ2, Σ2) 𝑌 = 1 − ∆ ⋅ 𝑌1 + ∆ ⋅ 𝑌2 ⇨ 𝑔 𝑌 𝑦 = 1 − 𝜋 𝜙 𝜃1 𝑦𝑖 + 𝜋𝜙 𝜃2 𝑦𝑖 where ∆∈ 0,1 with Pr ∆= 1 = 𝜋
  • 19. The EM Algorithm 混合正規分布の例 ・観測データ𝑦𝑖(i = 1, … , N)が得られているときの対数尤度関数 𝑙 𝑍; 𝜃 = 𝑖=1 𝑁 𝑙𝑜𝑔[ 1 − 𝜋 𝜙 𝜃1 𝑦𝑖 + 𝜋𝜙 𝜃2 𝑦𝑖 ] ⇨ 𝑙 𝑍; 𝜃 の極値は陽に求められない ・そこで、潜在変数∆𝑖が仮に観測された場合の対数尤度 (完全対数尤度)を考えると 𝑙0 𝑍; 𝜃, ∆ = 𝑖=1 𝑁 [ 1 − ∆𝑖 𝑙𝑜𝑔𝜙 𝜃1 𝑦𝑖 + ∆𝑖 𝑙𝑜𝑔𝜙 𝜃2 𝑦𝑖 ] + 𝑖=1 𝑁 [ 1 − ∆𝑖 𝑙𝑜𝑔 1 − 𝜋 + ∆𝑖 𝑙𝑜𝑔𝜋] ⇨ 𝑙0 𝑍; 𝜃, ∆ の極値は陽に求めるられる 18
  • 20. The EM Algorithm 混合正規分布の例 ・もちろん潜在変数∆𝑖は観測されていないので、完全対数尤度は 計算できない ⇨ データZ, パラメータ𝜃が与えられた元での条件付き期待値 (Expectation)で代用する ⇨ EM AlgorithmのE-stepに対応 ・パラメータ𝜃はどう決める? ⇨ E-stepで求めた条件付き期待値が最大(Maximization)になる 𝜃′を見つける ⇨ EM AlgorithmのM-stepに対応 ・この手続きをパラメータ𝜃が収束するまで交互に繰り返す 19
  • 23. The EM Algorithm EMアルゴリズムの妥当性 𝑍: 観測データ, 𝑍 𝑚 : 欠損データ, 𝑇 = (𝑍, 𝑍 𝑚 ) , 𝜃′:更新パラメータ(変数), 𝜃 :更新前パラメータ(定数) ・(8.45)式から観測データに対する対数尤度関数は下記の通り 𝑙 𝜃′; 𝑍 = 𝑙0 𝜃′; 𝑇 − 𝑙1 𝜃′; 𝑍 𝑚 𝑍 = 𝐸[𝑙0 𝜃′; 𝑇 𝑍, 𝜃 − 𝐸 𝑙1 𝜃′; 𝑍 𝑚 𝑍 𝑍, 𝜃 = 𝑄 𝜃′ , 𝜃 − 𝑅 𝜃′ , 𝜃 ・更新前後での尤度を比較すると 𝑙 𝜃′ ; 𝑍 − 𝑙 𝜃; 𝑍 = 𝑄 𝜃′ , 𝜃 − 𝑄 𝜃, 𝜃 − [𝑅 𝜃′ , 𝜃 − 𝑅 𝜃, 𝜃 ] ・1項目はM-stepにより明らかに0以上 ・2項目を評価すると 𝑅 𝜃′ , 𝜃 − 𝑅 𝜃, 𝜃 = −𝐸 𝑍 𝑚|𝑍,𝜃 log 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃′ = −𝐾𝐿 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃 , 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃′ ≤ 0 Hence, 𝑙 𝜃′ ; 𝑍 − 𝑙 𝜃; 𝑍 ≥ 0 22
  • 24. MCMC for Sampling from the Posterior MCMCについて ・ベイズ推論において、解析的に導出が困難な事後分布をモンテ カルロ法により求める方法 ・定常分布が事後分布になるようなマルコフ連鎖を構成する ・Gibbsサンプラー(完全条件付分布からの逐次サンプリング) ・M-Hアルゴリズム(尤度比を用いた棄却法) ・他のアプリケーションとしては、数え上げ問題、分割表の確率 計算(Fisherの正確確率検定)など 23
  • 25. MCMC for Sampling from the Posterior Gibbsサンプラーについて ・同時分布の解析導出、もしくはサンプリングが困難だが、条件 付き分布からのサンプリングが容易な場合に有効なアルゴリズム 24
  • 26. MCMC for Sampling from the Posterior 混合分布の例での具体的なアルゴリズム 25 事後分布の収束の様子