SlideShare a Scribd company logo
6
Most read
7
Most read
8
Most read
PRML 第3章 3.3~3.4
線形回帰モデル
- 2 -
第3章 線形回帰モデル
◼ 3.3 ベイズ線形回帰
⚫ 3.3.1 パラメータの分布
⚫ 3.3.2 予測分布
⚫ 3.3.3 等価カーネル
◼ 3.4 ベイズモデル比較
◼ 3.5 エビデンス近似
⚫ 3.5.1 エビデンス関数の評価
⚫ 3.5.2 エビデンス関数の最大化
⚫ 3.5.3 有効パラメータ数
◼ 3.6 固定された基底関数の限界
ここまで
- 3 -
3.3 ベイズ線形回帰
◼ 今までの内容で分かったこと(最尤推定の場合)
⚫ 基底関数の数によって決まるモデルの複雑さをデータサイズに応じて
決定する必要性
⚫ 正則化項(Lasso, Ridge etc)を追加することによって、モデルの複雑さ
を調整可能(基底関数の数と形を選ぶことは正則化を付けても重要)
⇒ 解こうとしている問題に合わせてモデルの複雑さを決める必要
⇒ 尤度最大化では、常に複雑なモデルを選択する危険性(過学習)
◼ 過学習への対処
⚫ クロスバリデーション
学習、評価、テストの3つに分割するのが一般的。以下手順。
①[学習, 評価]の組み合わせをkに分割し、
k-1個のデータで学習、1個で評価。入れ替えながらハイパラ探索。
②ベスパラで[学習, 評価]データ全てを学習し、1つのモデルを作成。
③テストデータで性能評価。
⇒ これを複数モデルで実施して、テストデータでの評価結果を比較
(計算量が多い)。手元にある一部のデータを学習に使えない。
- 4 -
3.3 ベイズ線形回帰
◼ 3.3~3.6節のモチベーション
⚫ 教師データ全てを使って、線形回帰モデルをベイズ的に扱うと
ともに、モデルの複雑さを自動的に決定したい。
⚫ P164によると、テスト用の独立なデータは取っておいた方が賢
明とのこと。
- 5 -
3.3.1 パラメータの分布
◼ モデルパラメータwの推定
⚫ モデルパラメータwの事前分布を導入し、線形回帰モデルを
ベイズ的に扱う。
事前分布(3.48):p w = 𝑁 𝑤 𝑚0, 𝑆0
尤度関数(3.10):p(t|X, w, β) = Π 𝑛=0
𝑁
𝑁(𝑡 𝑛|𝑤 𝑇φ 𝑥 𝑛 , β−1)
事後分布(3.49):p w t ∝ p t X, w, β 𝑝 w = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁) ※演習3.7
ただし、
平均(3.50):𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁
−1
𝑚0 + βΦ 𝑇 𝑡
分散共分散(3.51):S 𝑁
−1
= 𝑆0
−1
+ βΦ 𝑇
Φ
計画行列(3.16) :Φ =
φ0 𝑥1 ⋯ φ 𝑀−1(𝑥1)
⋮ ⋱ ⋮
φ0(𝑥 𝑁) ⋯ φ 𝑀−1(𝑥 𝑁)
基底関数:φ 𝑛 = φ 𝑥 𝑛 = (φ0 𝑥 𝑛 , φ1 𝑥 𝑛 , ‥φ 𝑀−1 𝑥 𝑛 ) 𝑇
※(m,m)((m,m)(m,1)+(m,n)(n,1))=(m,1)
※(m,m)+(m,n)(n,m)=(m,m)
※(n,m)
※(m,1)
- 6 -
演習3.7
- 7 -
演習3.7
- 8 -
◼ モデルパラメータwの推定(続き)
平均(3.50):𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁
−1
𝑚0 + βΦ 𝑇
𝑡
分散共分散(3.51):S 𝑁
−1
= 𝑆0
−1
+ βΦ 𝑇
Φ
⚫ 事前分布を単一の精度パラメータαとし、期待値=0のガウスを考
える(αとβは既知)。
事前分布(3.52):p(w|α) = 𝑁 𝑤 0, α−1 𝐼
事後分布(3.49):p w t ∝ p(t|X, w, β)P w|α = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁)
ただし、
平均(3.53):𝑚 𝑁 = β𝑆 𝑁Φ 𝑇
𝑡
分散共分散(3.54):S 𝑁
−1
= α𝐼 + βΦ 𝑇Φ
⚫ 事後分布の対数を取ったものをwに関して最大化すればwの推定
が可能
事後分布(3.55):ln p w t = −
β
2
σ 𝑛=1
𝑁
{𝑡 𝑛 − 𝑤 𝑇
φ(𝑥 𝑛)}2
−
α
2
𝑤 𝑇
𝑤 + 定数
3.3.1 パラメータの分布
二乗和誤差 正則化項
- 9 -
◼ ベイズ学習と逐次的な更新
事後分布が次の事前分布に=逐次更新
3.3.1 パラメータの分布
- 10 -
3.3.1 パラメータの分布
①一様分布から
データを観測
このデータを得られる可能性のあるw
赤い(確率が高い)部分は
・w0=-1, w1=1 ・w0=0, w1=0 ・・・
③事後分布を元にデータを生成
確率が高いのは、
・𝑦 𝑥, 𝑤 = −1 + 𝑥 ・𝑦 𝑥, 𝑤 = 1 − 𝑥 ・・・
②事前分布×尤度関数を計算
◼ ベイズ学習と逐次的な更新
𝑦 𝑥, 𝑤 = 𝑤0 + 𝑤1 𝑥 , α=2(
α
2
𝑤 𝑇
𝑤), β=25((
1
0.2
)2
= 25, 標準偏差=0.2)
yは上式にガウスノイズを加えたもの。Xは一様分布から生成。
- 11 -
◼ 新たなデータ 𝑥 に対応する 𝒕 の予測
⚫ 3.3.1では𝑤の分布を求めたが、実際は 𝑡 の予測を行いたい。
予測分布(3.57):p(t|𝑿, 𝑻, 𝑥, α, β) = ‫׬‬ 𝑝 𝑡 𝑥, 𝑤, β 𝑝 𝑤 𝑿, 𝑻, α, β 𝑑𝑤
⇒ 予測分布(3.58):p t 𝑿, 𝑻, 𝑥, α, β = 𝑁 𝑡 𝑚 𝑁
𝑇
φ 𝑥 , σ 𝑁
2
𝑥
ただし、
分散(3.59):σ 𝑁
2
𝑥 =
1
β
+ φ(𝑥)−1 𝑆 𝑁φ(x)
平均(3.53):𝑚 𝑁 = β𝑆 𝑁Φ 𝑇
𝑡
分散共分散(3.54):S 𝑁
−1
= α𝐼 + βΦ 𝑇
Φ
✓ (3.59)式の第1項はデータに含まれるノイズ、第2項は𝑤の不確かさ(分散
が大きい=データが散らばっており、 𝑤の推定値が不確か)を表す。
✓ 新しいデータを観測すると事後分布は必ず狭くなる。
✓ N→∞で分散(第2項) が0に収束するため予測分布の分散はβのみに依存。
3.3.2 予測分布
求めたwの確率と
新しいxでtの確率を算出
教師データ(X,T)及び既知の
α,βでwの確率を算出
- 12 -
◼ 予測分布の例
3.3.2 予測分布
データ点が増えると予測の不確
かさ(分散の第2項)が減少する
ばらつきはβ−1
に大きく依存
- 13 -
◼ カーネル法の導入
⚫ 式の導出
(3.3)式に(3.53)式を代入
予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = 𝑚 𝑁
𝑇
φ 𝑥 = βφ(𝑥) 𝑇
𝑆 𝑁Φ 𝑇
𝑡
= σ 𝑛=1
𝑁
βφ 𝑥 𝑇
𝑆 𝑁φ(𝑥 𝑛)𝑡 𝑛
ここで、
等価カーネル※(3.62) :𝑘 𝑥, 𝑥′
= βφ 𝑥 𝑇
𝑆 𝑁φ(𝑥′)
とおくと、以下の形になる。
予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1
𝑁
𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛
ただし、
予測分布(3.3):y(x, w) = σ 𝑗=1
𝑀−1
𝑤𝑗φ 𝑗 𝑥 = 𝑤 𝑇
φ(𝑥)
平均(3.53) :𝑚 𝑁 = β𝑆 𝑁Φ 𝑇
𝑡
分散共分散(3.54):S 𝑁
−1
= α𝐼 + βΦ 𝑇
Φ
3.3.3 等価カーネル
※(1,m)(m,m)(m,1)=(1,1)
※平滑化行列とも呼ぶ
予測したいデータのx 訓練データ
計算結果が(1,1)になれば良い。
𝑆 𝑁Φ 𝑇
𝑡 = (𝑚, 1)なので、
φ(𝑥) 𝑇
= (1, 𝑚)を前に置けば
(1,1)になる。
- 14 -
◼ 等価カーネルの解釈
予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1
𝑁
𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛
✓ 𝑘 𝑥, 𝑥 𝑛 が 𝑡 𝑛の重みになっている。
✓ パラメータ𝑤を用いずに、訓練データ集合のみから予測値を算出。
⇒ ガウス過程(6.4節)
✓ 予測したい 𝑥 に近い訓練データの 𝑥’ に大きく重みを付けている。
✓ 新しいデータの予測値を算出する度に、全ての訓練データとの内積
を計算するため、訓練データが多いと計算量が膨大に。
3.3.3 等価カーネル
← 訓練データ →
↑
予
測
し
た
い
デ
|
タ
↓
- 15 -
◼ 本節のモチベーション
⚫ モデル選択をベイズ的に行いたい。
⇒ モデルの不確かさを表すために確率を用いる。
教師データは何らかのモデルから生成されているとする。
ただし、どのモデルから生成されたかは分からない。
⇒ 最も教師データを生成したと考えられるモデル
(多項式?ガウス?)を推定する。
◼ ベイズモデル比較
事前分布:𝑝 𝑀𝑖
尤度関数(3.68):𝑝 𝐷 𝑀𝑖 = ‫׬‬ 𝑝 𝐷 𝑤, 𝑀𝑖 𝑝 𝑤 𝑀𝑖 𝑑𝑤
事後分布(3.66): p 𝑀𝑖|𝐷 ∝ 𝑝 𝑀𝑖 𝑝 𝐷 𝑀𝑖
✓ 事前分布は各々のモデルに対する好みを表す(好きなモデルに高い
確率を・・・)。ここでは事前確率は等しいと考える。
✓ 尤度関数をモデルエビデンスと呼び、データから見たモデルの好み
を表す。
3.4 ベイズモデル比較
- 16 -
◼ 予測分布
予測分布(3.67):𝑝 𝑡 𝑥, 𝐷 = σ𝑖=1
𝐿
𝑝 𝑡 𝑥, 𝑀𝑖, 𝐷 𝑝(𝑀𝑖|𝐷)
✓ 混合分布の一種(全てのモデルの総和を取るので、各モデルの予測
値を元に一つの t を算出する)。
◼ モデルエビデンス( 𝑝 𝐷 𝑀𝑖 )
✓ あるモデル𝑀𝑖 から教師データD が生成される確率。
✓ ベイズの定理でパラメータwの事後確率を計算するときの分母に
モデルエビデンスが出現する。
⇒ モデルエビデンスはwを周辺化した尤度関数(周辺尤度)
wの事後分布(3.69): 𝑃 𝑤 𝐷, 𝑀𝑖 =
𝑝(𝐷|𝑤,𝑀 𝑖)𝑝(𝑤|𝑀 𝑖)
𝑝(𝐷|𝑀 𝑖)
✓ ある二つのモデルエビデンスの比はベイズ因子と呼ばれる。
ベイズ因子:
𝑝(𝐷|𝑀𝑖)
𝑝(𝐷|𝑀 𝑗)
3.4 ベイズモデル比較
- 17 -
◼ モデルエビデンスの別の解釈
⚫ 式変形。パラメータwに関する積分を単純近似する。(𝑀𝑖は省略)
✓ 事後分布(𝑝 𝐷 𝑤 )が最頻値𝑤 𝑀𝐴𝑃の近傍で
鋭く尖っている
⇒ 幅をΔ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟とする
✓ 積分で得られる確率を縦×横の面積で近似
⇒ 𝑝 𝐷 𝑤 𝑀𝐴𝑃 × Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
✓ 事前分布が平坦
⇒ 幅をΔ𝑤 𝑝𝑟𝑖𝑜𝑟とする。あるwが
選ばれる確率は等しいので事前確率
𝑝 𝑤 は
1
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
となる。
⇒ (3.70):𝑝 𝐷 = ‫׬‬ 𝑝 𝐷 𝑤 𝑝 𝑤 𝑑𝑤 ≃ 𝑝(𝐷|𝑤 𝑀𝐴𝑃)
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
⇒ 対数を取ると、
(3.71): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln(
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
)
3.4 ベイズモデル比較
- 18 -
◼ モデルエビデンスの別の解釈(続き)
(3.71): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln(
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
)
⇒ Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 < Δ𝑤 𝑝𝑟𝑖𝑜𝑟 なので、ペナルティ項は常に負。
Δ𝑤 𝑝𝑟𝑖𝑜𝑟 に対して Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 が小さい(幅が狭く)なると
ペナルティが強くなる(負の値が大きくなる)。
⇒ 幅がせまい=過学習(モデルが複雑)の可能性がある。
⚫ モデルがM個のパラメータを含む場合
(3.72): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + 𝑀 ln(
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
)
⇒ パラメータが多いとペナルティ大。
⇒ バランスの良いモデルが選択される。
3.4 ベイズモデル比較
データへのフィッティング度 ペナルティ項
AIC:あるモデルを選択した時に、説明変数の数にペナルティ
BIC:あるモデルを選択した時に、訓練データ数にペナルティ
モデルエビデンス:いくつかのモデルがあった時に、そのモデルの複雑さにペナルティ
- 19 -
◼ モデルエビデンスの別の解釈(続き)
横軸:特定のデータ集合D
縦軸:Dが生成される確率𝑝(𝐷)
モデル:複雑さが単調増加するモデル𝑀1, 𝑀2, 𝑀3
3.4 ベイズモデル比較
この範囲のデータDはモデル
𝑀1から生成された確率が高い
⇒データの複雑度は低い
この範囲のデータDはモデル
𝑀2から生成された確率が高い
⇒データの複雑度は中程度
⇒データの複雑度に応じて、バランス
の良いモデルが選択される
- 20 -
◼ 正しいモデルを選択
⚫ ベイズモデル比較では、考えているモデル集合の中にデータが生成される
真の分布が含まれていることを暗に仮定。
⇒ この仮定が正しければ、ベイズモデル比較によって平均的に
正しいモデルが選択される。(正しいモデルが選択される確率高)
⚫ 2つのモデル(𝑀1, 𝑀2)のうち、𝑀1が正しいモデルだと仮定する。
⚫ ベイズ因子の期待値を計算。
期待ベイズ因子 (3.73):‫׬‬ 𝑝 𝐷 𝑀1 ln
𝑝(𝐷|𝑀1)
𝑝(𝐷|𝑀2)
𝑑𝐷
(𝑀1が選択された時のデータDが生成される確率× 𝑀1に関するベイズ因子
における全データの積分値)
⇒ この式はKLダイバージェンスと同じ
KLダイバージェンス:𝐾𝐿(𝑝| 𝑞 ≔ ‫׬‬ 𝑝 𝑥 ln
𝑝(𝑥)
𝑞(𝑥)
𝑑𝑥
✓ KLダイバージェンスは常に正。
つまり、常に𝑝(𝐷|𝑀1)> 𝑝(𝐷|𝑀2)であることが期待できる。
3.4 ベイズモデル比較
※KLダイバージェンス:Kullback–Leibler divergence

More Related Content

PDF
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
PDF
PRML輪読#3
PDF
PRML第3章@京大PRML輪講
PDF
PRML上巻勉強会 at 東京大学 資料 第1章後半
PDF
PRML輪読#4
PDF
PRML輪読#6
PDF
PRML 上 2.3.6 ~ 2.5.2
PDF
PRML輪読#5
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
PRML輪読#3
PRML第3章@京大PRML輪講
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML輪読#4
PRML輪読#6
PRML 上 2.3.6 ~ 2.5.2
PRML輪読#5

What's hot (20)

PDF
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PDF
PRML 第4章
PPTX
PRML2.4 指数型分布族
PDF
PPTX
PRML Chapter 5
PDF
PRML輪読#12
PPTX
Prml 1.3~1.6 ver3
PDF
自動微分変分ベイズ法の紹介
PDF
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PDF
PCAの最終形態GPLVMの解説
PPT
C:\D Drive\Prml\プレゼン\パターン認識と機械学習2 4章 D0703
PDF
深層学習 勉強会第5回 ボルツマンマシン
ZIP
今さら聞けないカーネル法とサポートベクターマシン
PDF
PRML復々習レーン#2 2.3.6 - 2.3.7
PDF
PRML輪読#14
PDF
Prml 2.3
PDF
階層ベイズによるワンToワンマーケティング入門
PDF
Prml 10 1
PDF
ベイズ統計入門
PDF
PRML輪読#10
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML 第4章
PRML2.4 指数型分布族
PRML Chapter 5
PRML輪読#12
Prml 1.3~1.6 ver3
自動微分変分ベイズ法の紹介
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PCAの最終形態GPLVMの解説
C:\D Drive\Prml\プレゼン\パターン認識と機械学習2 4章 D0703
深層学習 勉強会第5回 ボルツマンマシン
今さら聞けないカーネル法とサポートベクターマシン
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML輪読#14
Prml 2.3
階層ベイズによるワンToワンマーケティング入門
Prml 10 1
ベイズ統計入門
PRML輪読#10
Ad

Similar to PRML第3章_3.3-3.4 (20)

PDF
正則化による尤度比推定法を応用した多値分類器の改良
PDF
不均衡データのクラス分類
PPTX
続・わかりやすいパターン認識 9章
PDF
Big Data Bootstrap (ICML読み会)
PDF
混合モデルとEMアルゴリズム(PRML第9章)
PPTX
PRML読み会第一章
PPTX
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
PDF
PRML Chapter 14
PPT
ma92007id395
PDF
[PRML] パターン認識と機械学習(第1章:序論)
PDF
20190512 bayes hands-on
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PDF
データ解析のための統計モデリング入門3章後半
PDF
PRML復々習レーン#9 6.3-6.3.1
PDF
20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない
PPTX
Darm3(samplesize)
PDF
あなたの心にBridgeSampling
PDF
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PPTX
PRMLrevenge_3.3
PPTX
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
正則化による尤度比推定法を応用した多値分類器の改良
不均衡データのクラス分類
続・わかりやすいパターン認識 9章
Big Data Bootstrap (ICML読み会)
混合モデルとEMアルゴリズム(PRML第9章)
PRML読み会第一章
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
PRML Chapter 14
ma92007id395
[PRML] パターン認識と機械学習(第1章:序論)
20190512 bayes hands-on
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
データ解析のための統計モデリング入門3章後半
PRML復々習レーン#9 6.3-6.3.1
20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない
Darm3(samplesize)
あなたの心にBridgeSampling
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PRMLrevenge_3.3
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ad

PRML第3章_3.3-3.4

  • 2. - 2 - 第3章 線形回帰モデル ◼ 3.3 ベイズ線形回帰 ⚫ 3.3.1 パラメータの分布 ⚫ 3.3.2 予測分布 ⚫ 3.3.3 等価カーネル ◼ 3.4 ベイズモデル比較 ◼ 3.5 エビデンス近似 ⚫ 3.5.1 エビデンス関数の評価 ⚫ 3.5.2 エビデンス関数の最大化 ⚫ 3.5.3 有効パラメータ数 ◼ 3.6 固定された基底関数の限界 ここまで
  • 3. - 3 - 3.3 ベイズ線形回帰 ◼ 今までの内容で分かったこと(最尤推定の場合) ⚫ 基底関数の数によって決まるモデルの複雑さをデータサイズに応じて 決定する必要性 ⚫ 正則化項(Lasso, Ridge etc)を追加することによって、モデルの複雑さ を調整可能(基底関数の数と形を選ぶことは正則化を付けても重要) ⇒ 解こうとしている問題に合わせてモデルの複雑さを決める必要 ⇒ 尤度最大化では、常に複雑なモデルを選択する危険性(過学習) ◼ 過学習への対処 ⚫ クロスバリデーション 学習、評価、テストの3つに分割するのが一般的。以下手順。 ①[学習, 評価]の組み合わせをkに分割し、 k-1個のデータで学習、1個で評価。入れ替えながらハイパラ探索。 ②ベスパラで[学習, 評価]データ全てを学習し、1つのモデルを作成。 ③テストデータで性能評価。 ⇒ これを複数モデルで実施して、テストデータでの評価結果を比較 (計算量が多い)。手元にある一部のデータを学習に使えない。
  • 4. - 4 - 3.3 ベイズ線形回帰 ◼ 3.3~3.6節のモチベーション ⚫ 教師データ全てを使って、線形回帰モデルをベイズ的に扱うと ともに、モデルの複雑さを自動的に決定したい。 ⚫ P164によると、テスト用の独立なデータは取っておいた方が賢 明とのこと。
  • 5. - 5 - 3.3.1 パラメータの分布 ◼ モデルパラメータwの推定 ⚫ モデルパラメータwの事前分布を導入し、線形回帰モデルを ベイズ的に扱う。 事前分布(3.48):p w = 𝑁 𝑤 𝑚0, 𝑆0 尤度関数(3.10):p(t|X, w, β) = Π 𝑛=0 𝑁 𝑁(𝑡 𝑛|𝑤 𝑇φ 𝑥 𝑛 , β−1) 事後分布(3.49):p w t ∝ p t X, w, β 𝑝 w = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁) ※演習3.7 ただし、 平均(3.50):𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁 −1 𝑚0 + βΦ 𝑇 𝑡 分散共分散(3.51):S 𝑁 −1 = 𝑆0 −1 + βΦ 𝑇 Φ 計画行列(3.16) :Φ = φ0 𝑥1 ⋯ φ 𝑀−1(𝑥1) ⋮ ⋱ ⋮ φ0(𝑥 𝑁) ⋯ φ 𝑀−1(𝑥 𝑁) 基底関数:φ 𝑛 = φ 𝑥 𝑛 = (φ0 𝑥 𝑛 , φ1 𝑥 𝑛 , ‥φ 𝑀−1 𝑥 𝑛 ) 𝑇 ※(m,m)((m,m)(m,1)+(m,n)(n,1))=(m,1) ※(m,m)+(m,n)(n,m)=(m,m) ※(n,m) ※(m,1)
  • 8. - 8 - ◼ モデルパラメータwの推定(続き) 平均(3.50):𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁 −1 𝑚0 + βΦ 𝑇 𝑡 分散共分散(3.51):S 𝑁 −1 = 𝑆0 −1 + βΦ 𝑇 Φ ⚫ 事前分布を単一の精度パラメータαとし、期待値=0のガウスを考 える(αとβは既知)。 事前分布(3.52):p(w|α) = 𝑁 𝑤 0, α−1 𝐼 事後分布(3.49):p w t ∝ p(t|X, w, β)P w|α = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁) ただし、 平均(3.53):𝑚 𝑁 = β𝑆 𝑁Φ 𝑇 𝑡 分散共分散(3.54):S 𝑁 −1 = α𝐼 + βΦ 𝑇Φ ⚫ 事後分布の対数を取ったものをwに関して最大化すればwの推定 が可能 事後分布(3.55):ln p w t = − β 2 σ 𝑛=1 𝑁 {𝑡 𝑛 − 𝑤 𝑇 φ(𝑥 𝑛)}2 − α 2 𝑤 𝑇 𝑤 + 定数 3.3.1 パラメータの分布 二乗和誤差 正則化項
  • 9. - 9 - ◼ ベイズ学習と逐次的な更新 事後分布が次の事前分布に=逐次更新 3.3.1 パラメータの分布
  • 10. - 10 - 3.3.1 パラメータの分布 ①一様分布から データを観測 このデータを得られる可能性のあるw 赤い(確率が高い)部分は ・w0=-1, w1=1 ・w0=0, w1=0 ・・・ ③事後分布を元にデータを生成 確率が高いのは、 ・𝑦 𝑥, 𝑤 = −1 + 𝑥 ・𝑦 𝑥, 𝑤 = 1 − 𝑥 ・・・ ②事前分布×尤度関数を計算 ◼ ベイズ学習と逐次的な更新 𝑦 𝑥, 𝑤 = 𝑤0 + 𝑤1 𝑥 , α=2( α 2 𝑤 𝑇 𝑤), β=25(( 1 0.2 )2 = 25, 標準偏差=0.2) yは上式にガウスノイズを加えたもの。Xは一様分布から生成。
  • 11. - 11 - ◼ 新たなデータ 𝑥 に対応する 𝒕 の予測 ⚫ 3.3.1では𝑤の分布を求めたが、実際は 𝑡 の予測を行いたい。 予測分布(3.57):p(t|𝑿, 𝑻, 𝑥, α, β) = ‫׬‬ 𝑝 𝑡 𝑥, 𝑤, β 𝑝 𝑤 𝑿, 𝑻, α, β 𝑑𝑤 ⇒ 予測分布(3.58):p t 𝑿, 𝑻, 𝑥, α, β = 𝑁 𝑡 𝑚 𝑁 𝑇 φ 𝑥 , σ 𝑁 2 𝑥 ただし、 分散(3.59):σ 𝑁 2 𝑥 = 1 β + φ(𝑥)−1 𝑆 𝑁φ(x) 平均(3.53):𝑚 𝑁 = β𝑆 𝑁Φ 𝑇 𝑡 分散共分散(3.54):S 𝑁 −1 = α𝐼 + βΦ 𝑇 Φ ✓ (3.59)式の第1項はデータに含まれるノイズ、第2項は𝑤の不確かさ(分散 が大きい=データが散らばっており、 𝑤の推定値が不確か)を表す。 ✓ 新しいデータを観測すると事後分布は必ず狭くなる。 ✓ N→∞で分散(第2項) が0に収束するため予測分布の分散はβのみに依存。 3.3.2 予測分布 求めたwの確率と 新しいxでtの確率を算出 教師データ(X,T)及び既知の α,βでwの確率を算出
  • 12. - 12 - ◼ 予測分布の例 3.3.2 予測分布 データ点が増えると予測の不確 かさ(分散の第2項)が減少する ばらつきはβ−1 に大きく依存
  • 13. - 13 - ◼ カーネル法の導入 ⚫ 式の導出 (3.3)式に(3.53)式を代入 予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = 𝑚 𝑁 𝑇 φ 𝑥 = βφ(𝑥) 𝑇 𝑆 𝑁Φ 𝑇 𝑡 = σ 𝑛=1 𝑁 βφ 𝑥 𝑇 𝑆 𝑁φ(𝑥 𝑛)𝑡 𝑛 ここで、 等価カーネル※(3.62) :𝑘 𝑥, 𝑥′ = βφ 𝑥 𝑇 𝑆 𝑁φ(𝑥′) とおくと、以下の形になる。 予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1 𝑁 𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛 ただし、 予測分布(3.3):y(x, w) = σ 𝑗=1 𝑀−1 𝑤𝑗φ 𝑗 𝑥 = 𝑤 𝑇 φ(𝑥) 平均(3.53) :𝑚 𝑁 = β𝑆 𝑁Φ 𝑇 𝑡 分散共分散(3.54):S 𝑁 −1 = α𝐼 + βΦ 𝑇 Φ 3.3.3 等価カーネル ※(1,m)(m,m)(m,1)=(1,1) ※平滑化行列とも呼ぶ 予測したいデータのx 訓練データ 計算結果が(1,1)になれば良い。 𝑆 𝑁Φ 𝑇 𝑡 = (𝑚, 1)なので、 φ(𝑥) 𝑇 = (1, 𝑚)を前に置けば (1,1)になる。
  • 14. - 14 - ◼ 等価カーネルの解釈 予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1 𝑁 𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛 ✓ 𝑘 𝑥, 𝑥 𝑛 が 𝑡 𝑛の重みになっている。 ✓ パラメータ𝑤を用いずに、訓練データ集合のみから予測値を算出。 ⇒ ガウス過程(6.4節) ✓ 予測したい 𝑥 に近い訓練データの 𝑥’ に大きく重みを付けている。 ✓ 新しいデータの予測値を算出する度に、全ての訓練データとの内積 を計算するため、訓練データが多いと計算量が膨大に。 3.3.3 等価カーネル ← 訓練データ → ↑ 予 測 し た い デ | タ ↓
  • 15. - 15 - ◼ 本節のモチベーション ⚫ モデル選択をベイズ的に行いたい。 ⇒ モデルの不確かさを表すために確率を用いる。 教師データは何らかのモデルから生成されているとする。 ただし、どのモデルから生成されたかは分からない。 ⇒ 最も教師データを生成したと考えられるモデル (多項式?ガウス?)を推定する。 ◼ ベイズモデル比較 事前分布:𝑝 𝑀𝑖 尤度関数(3.68):𝑝 𝐷 𝑀𝑖 = ‫׬‬ 𝑝 𝐷 𝑤, 𝑀𝑖 𝑝 𝑤 𝑀𝑖 𝑑𝑤 事後分布(3.66): p 𝑀𝑖|𝐷 ∝ 𝑝 𝑀𝑖 𝑝 𝐷 𝑀𝑖 ✓ 事前分布は各々のモデルに対する好みを表す(好きなモデルに高い 確率を・・・)。ここでは事前確率は等しいと考える。 ✓ 尤度関数をモデルエビデンスと呼び、データから見たモデルの好み を表す。 3.4 ベイズモデル比較
  • 16. - 16 - ◼ 予測分布 予測分布(3.67):𝑝 𝑡 𝑥, 𝐷 = σ𝑖=1 𝐿 𝑝 𝑡 𝑥, 𝑀𝑖, 𝐷 𝑝(𝑀𝑖|𝐷) ✓ 混合分布の一種(全てのモデルの総和を取るので、各モデルの予測 値を元に一つの t を算出する)。 ◼ モデルエビデンス( 𝑝 𝐷 𝑀𝑖 ) ✓ あるモデル𝑀𝑖 から教師データD が生成される確率。 ✓ ベイズの定理でパラメータwの事後確率を計算するときの分母に モデルエビデンスが出現する。 ⇒ モデルエビデンスはwを周辺化した尤度関数(周辺尤度) wの事後分布(3.69): 𝑃 𝑤 𝐷, 𝑀𝑖 = 𝑝(𝐷|𝑤,𝑀 𝑖)𝑝(𝑤|𝑀 𝑖) 𝑝(𝐷|𝑀 𝑖) ✓ ある二つのモデルエビデンスの比はベイズ因子と呼ばれる。 ベイズ因子: 𝑝(𝐷|𝑀𝑖) 𝑝(𝐷|𝑀 𝑗) 3.4 ベイズモデル比較
  • 17. - 17 - ◼ モデルエビデンスの別の解釈 ⚫ 式変形。パラメータwに関する積分を単純近似する。(𝑀𝑖は省略) ✓ 事後分布(𝑝 𝐷 𝑤 )が最頻値𝑤 𝑀𝐴𝑃の近傍で 鋭く尖っている ⇒ 幅をΔ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟とする ✓ 積分で得られる確率を縦×横の面積で近似 ⇒ 𝑝 𝐷 𝑤 𝑀𝐴𝑃 × Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 ✓ 事前分布が平坦 ⇒ 幅をΔ𝑤 𝑝𝑟𝑖𝑜𝑟とする。あるwが 選ばれる確率は等しいので事前確率 𝑝 𝑤 は 1 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 となる。 ⇒ (3.70):𝑝 𝐷 = ‫׬‬ 𝑝 𝐷 𝑤 𝑝 𝑤 𝑑𝑤 ≃ 𝑝(𝐷|𝑤 𝑀𝐴𝑃) Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 ⇒ 対数を取ると、 (3.71): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln( Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 ) 3.4 ベイズモデル比較
  • 18. - 18 - ◼ モデルエビデンスの別の解釈(続き) (3.71): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln( Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 ) ⇒ Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 < Δ𝑤 𝑝𝑟𝑖𝑜𝑟 なので、ペナルティ項は常に負。 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 に対して Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 が小さい(幅が狭く)なると ペナルティが強くなる(負の値が大きくなる)。 ⇒ 幅がせまい=過学習(モデルが複雑)の可能性がある。 ⚫ モデルがM個のパラメータを含む場合 (3.72): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + 𝑀 ln( Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 ) ⇒ パラメータが多いとペナルティ大。 ⇒ バランスの良いモデルが選択される。 3.4 ベイズモデル比較 データへのフィッティング度 ペナルティ項 AIC:あるモデルを選択した時に、説明変数の数にペナルティ BIC:あるモデルを選択した時に、訓練データ数にペナルティ モデルエビデンス:いくつかのモデルがあった時に、そのモデルの複雑さにペナルティ
  • 19. - 19 - ◼ モデルエビデンスの別の解釈(続き) 横軸:特定のデータ集合D 縦軸:Dが生成される確率𝑝(𝐷) モデル:複雑さが単調増加するモデル𝑀1, 𝑀2, 𝑀3 3.4 ベイズモデル比較 この範囲のデータDはモデル 𝑀1から生成された確率が高い ⇒データの複雑度は低い この範囲のデータDはモデル 𝑀2から生成された確率が高い ⇒データの複雑度は中程度 ⇒データの複雑度に応じて、バランス の良いモデルが選択される
  • 20. - 20 - ◼ 正しいモデルを選択 ⚫ ベイズモデル比較では、考えているモデル集合の中にデータが生成される 真の分布が含まれていることを暗に仮定。 ⇒ この仮定が正しければ、ベイズモデル比較によって平均的に 正しいモデルが選択される。(正しいモデルが選択される確率高) ⚫ 2つのモデル(𝑀1, 𝑀2)のうち、𝑀1が正しいモデルだと仮定する。 ⚫ ベイズ因子の期待値を計算。 期待ベイズ因子 (3.73):‫׬‬ 𝑝 𝐷 𝑀1 ln 𝑝(𝐷|𝑀1) 𝑝(𝐷|𝑀2) 𝑑𝐷 (𝑀1が選択された時のデータDが生成される確率× 𝑀1に関するベイズ因子 における全データの積分値) ⇒ この式はKLダイバージェンスと同じ KLダイバージェンス:𝐾𝐿(𝑝| 𝑞 ≔ ‫׬‬ 𝑝 𝑥 ln 𝑝(𝑥) 𝑞(𝑥) 𝑑𝑥 ✓ KLダイバージェンスは常に正。 つまり、常に𝑝(𝐷|𝑀1)> 𝑝(𝐷|𝑀2)であることが期待できる。 3.4 ベイズモデル比較 ※KLダイバージェンス:Kullback–Leibler divergence