PRML第3章_3.3-3.4

PRML 第3章 3.3～3.4
線形回帰モデル

- 2 -
第３章線形回帰モデル
◼ 3.3 ベイズ線形回帰
⚫ 3.3.1 パラメータの分布
⚫ 3.3.2 予測分布
⚫ 3.3.3 等価カーネル
◼ 3.4 ベイズモデル比較
◼ 3.5 エビデンス近似
⚫ 3.5.1 エビデンス関数の評価
⚫ 3.5.2 エビデンス関数の最大化
⚫ 3.5.3 有効パラメータ数
◼ 3.6 固定された基底関数の限界
ここまで

- 3 -
3.3 ベイズ線形回帰
◼ 今までの内容で分かったこと（最尤推定の場合）
⚫ 基底関数の数によって決まるモデルの複雑さをデータサイズに応じて
決定する必要性
⚫ 正則化項（Lasso, Ridge etc）を追加することによって、モデルの複雑さ
を調整可能（基底関数の数と形を選ぶことは正則化を付けても重要）
⇒ 解こうとしている問題に合わせてモデルの複雑さを決める必要
⇒ 尤度最大化では、常に複雑なモデルを選択する危険性（過学習）
◼ 過学習への対処
⚫ クロスバリデーション
学習、評価、テストの３つに分割するのが一般的。以下手順。
①[学習, 評価]の組み合わせをkに分割し、
k-1個のデータで学習、1個で評価。入れ替えながらハイパラ探索。
②ベスパラで[学習, 評価]データ全てを学習し、１つのモデルを作成。
③テストデータで性能評価。
⇒ これを複数モデルで実施して、テストデータでの評価結果を比較
（計算量が多い）。手元にある一部のデータを学習に使えない。

- 4 -
3.3 ベイズ線形回帰
◼ 3.3～3.6節のモチベーション
⚫ 教師データ全てを使って、線形回帰モデルをベイズ的に扱うと
ともに、モデルの複雑さを自動的に決定したい。
⚫ P164によると、テスト用の独立なデータは取っておいた方が賢
明とのこと。

- 5 -
3.3.1 パラメータの分布
◼ モデルパラメータwの推定
⚫ モデルパラメータwの事前分布を導入し、線形回帰モデルを
ベイズ的に扱う。
事前分布（3.48）：p w = 𝑁 𝑤 𝑚0, 𝑆0
尤度関数（3.10）：p(t|X, w, β) = Π 𝑛=0
𝑁
𝑁(𝑡 𝑛|𝑤 𝑇φ 𝑥 𝑛 , β−1)
事後分布（3.49）：p w t ∝ p t X, w, β 𝑝 w = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁) ※演習3.7
ただし、
平均（3.50）：𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁
−1
𝑚0 + βΦ 𝑇 𝑡
分散共分散（3.51）：S 𝑁
−1
= 𝑆0
−1
+ βΦ 𝑇
Φ
計画行列（3.16）：Φ =
φ0 𝑥1 ⋯ φ 𝑀−1(𝑥1)
⋮ ⋱ ⋮
φ0(𝑥 𝑁) ⋯ φ 𝑀−1(𝑥 𝑁)
基底関数：φ 𝑛 = φ 𝑥 𝑛 = (φ0 𝑥 𝑛 , φ1 𝑥 𝑛 , ‥φ 𝑀−1 𝑥 𝑛 ) 𝑇
※(m,m)((m,m)(m,1)+(m,n)(n,1))=(m,1)
※(m,m)+(m,n)(n,m)=(m,m)
※(n,m)
※(m,1)

- 8 -
◼ モデルパラメータwの推定（続き）
平均（3.50）：𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁
−1
𝑚0 + βΦ 𝑇
𝑡
−1
= 𝑆0
−1
+ βΦ 𝑇
Φ
⚫ 事前分布を単一の精度パラメータαとし、期待値=0のガウスを考
える（αとβは既知）。
事前分布（3.52）：p(w|α) = 𝑁 𝑤 0, α−1 𝐼
事後分布（3.49）：p w t ∝ p(t|X, w, β)P w|α = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁)
ただし、
平均（3.53）：𝑚 𝑁 = β𝑆 𝑁Φ 𝑇
𝑡
−1
= α𝐼 + βΦ 𝑇Φ
⚫ 事後分布の対数を取ったものをwに関して最大化すればwの推定
が可能
事後分布（3.55）：ln p w t = −
β
2
σ 𝑛=1
𝑁
{𝑡 𝑛 − 𝑤 𝑇
φ(𝑥 𝑛)}2
−
α
2
𝑤 𝑇
𝑤 + 定数
二乗和誤差正則化項

- 9 -
◼ ベイズ学習と逐次的な更新
事後分布が次の事前分布に＝逐次更新

- 10 -
①一様分布から
データを観測
このデータを得られる可能性のあるw
赤い（確率が高い）部分は
・w0=-1, w1=1 ・w0=0, w1=0 ・・・
③事後分布を元にデータを生成
確率が高いのは、
・𝑦 𝑥, 𝑤 = −1 + 𝑥 ・𝑦 𝑥, 𝑤 = 1 − 𝑥 ・・・
②事前分布×尤度関数を計算
◼ ベイズ学習と逐次的な更新
𝑦 𝑥, 𝑤 = 𝑤0 + 𝑤1 𝑥 , α=2（
α
2
𝑤 𝑇
𝑤）, β=25（(
1
0.2
)2
= 25, 標準偏差=0.2）
yは上式にガウスノイズを加えたもの。Xは一様分布から生成。

- 11 -
◼ 新たなデータ 𝑥 に対応する 𝒕 の予測
⚫ 3.3.1では𝑤の分布を求めたが、実際は 𝑡 の予測を行いたい。
予測分布（3.57）：p(t|𝑿, 𝑻, 𝑥, α, β) = ‫׬‬ 𝑝 𝑡 𝑥, 𝑤, β 𝑝 𝑤 𝑿, 𝑻, α, β 𝑑𝑤
⇒ 予測分布（3.58）：p t 𝑿, 𝑻, 𝑥, α, β = 𝑁 𝑡 𝑚 𝑁
𝑇
φ 𝑥 , σ 𝑁
2
𝑥
ただし、
分散（3.59）：σ 𝑁
2
𝑥 =
1
β
+ φ(𝑥)−1 𝑆 𝑁φ(x)
𝑡
−1
= α𝐼 + βΦ 𝑇
Φ
✓ (3.59)式の第1項はデータに含まれるノイズ、第2項は𝑤の不確かさ（分散
が大きい＝データが散らばっており、 𝑤の推定値が不確か）を表す。
✓ 新しいデータを観測すると事後分布は必ず狭くなる。
✓ N→∞で分散(第2項) が0に収束するため予測分布の分散はβのみに依存。
3.3.2 予測分布
求めたwの確率と
新しいxでtの確率を算出
教師データ(X,T)及び既知の
α,βでwの確率を算出

- 12 -
◼ 予測分布の例
3.3.2 予測分布
データ点が増えると予測の不確
かさ（分散の第2項）が減少する
ばらつきはβ−1
に大きく依存

- 13 -
◼ カーネル法の導入
⚫ 式の導出
(3.3)式に(3.53)式を代入
予測分布の平均（3.60）：𝑦 𝑥, 𝑚 𝑛 = 𝑚 𝑁
𝑇
φ 𝑥 = βφ(𝑥) 𝑇
𝑆 𝑁Φ 𝑇
𝑡
= σ 𝑛=1
𝑁
βφ 𝑥 𝑇
𝑆 𝑁φ(𝑥 𝑛)𝑡 𝑛
ここで、
等価カーネル※（3.62）：𝑘 𝑥, 𝑥′
= βφ 𝑥 𝑇
𝑆 𝑁φ(𝑥′)
とおくと、以下の形になる。
予測分布の平均（3.60）：𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1
𝑁
𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛
ただし、
予測分布（3.3）：y(x, w) = σ 𝑗=1
𝑀−1
𝑤𝑗φ 𝑗 𝑥 = 𝑤 𝑇
φ(𝑥)
𝑡
−1
= α𝐼 + βΦ 𝑇
Φ
3.3.3 等価カーネル
※(1,m)(m,m)(m,1)=(1,1)
※平滑化行列とも呼ぶ
予測したいデータのx 訓練データ
計算結果が(1,1)になれば良い。
𝑆 𝑁Φ 𝑇
𝑡 = (𝑚, 1)なので、
φ(𝑥) 𝑇
= (1, 𝑚)を前に置けば
(1,1)になる。

- 14 -
◼ 等価カーネルの解釈
予測分布の平均（3.60）：𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1
𝑁
𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛
✓ 𝑘 𝑥, 𝑥 𝑛 が 𝑡 𝑛の重みになっている。
✓ パラメータ𝑤を用いずに、訓練データ集合のみから予測値を算出。
⇒ ガウス過程（6.4節）
✓ 予測したい 𝑥 に近い訓練データの 𝑥’ に大きく重みを付けている。
✓ 新しいデータの予測値を算出する度に、全ての訓練データとの内積
を計算するため、訓練データが多いと計算量が膨大に。
3.3.3 等価カーネル
← 訓練データ →
↑
予
測
し
た
い
デ
｜
タ
↓

- 15 -
◼ 本節のモチベーション
⚫ モデル選択をベイズ的に行いたい。
⇒ モデルの不確かさを表すために確率を用いる。
教師データは何らかのモデルから生成されているとする。
ただし、どのモデルから生成されたかは分からない。
⇒ 最も教師データを生成したと考えられるモデル
（多項式？ガウス？）を推定する。
◼ ベイズモデル比較
事前分布：𝑝 𝑀𝑖
尤度関数（3.68）：𝑝 𝐷 𝑀𝑖 = ‫׬‬ 𝑝 𝐷 𝑤, 𝑀𝑖 𝑝 𝑤 𝑀𝑖 𝑑𝑤
事後分布（3.66）： p 𝑀𝑖|𝐷 ∝ 𝑝 𝑀𝑖 𝑝 𝐷 𝑀𝑖
✓ 事前分布は各々のモデルに対する好みを表す（好きなモデルに高い
確率を・・・）。ここでは事前確率は等しいと考える。
✓ 尤度関数をモデルエビデンスと呼び、データから見たモデルの好み
を表す。
3.4 ベイズモデル比較

- 16 -
◼ 予測分布
予測分布（3.67）：𝑝 𝑡 𝑥, 𝐷 = σ𝑖=1
𝐿
𝑝 𝑡 𝑥, 𝑀𝑖, 𝐷 𝑝(𝑀𝑖|𝐷)
✓ 混合分布の一種（全てのモデルの総和を取るので、各モデルの予測
値を元に一つの t を算出する）。
◼ モデルエビデンス（ 𝑝 𝐷 𝑀𝑖 ）
✓ あるモデル𝑀𝑖 から教師データD が生成される確率。
✓ ベイズの定理でパラメータwの事後確率を計算するときの分母に
モデルエビデンスが出現する。
⇒ モデルエビデンスはwを周辺化した尤度関数（周辺尤度）
wの事後分布（3.69）： 𝑃 𝑤 𝐷, 𝑀𝑖 =
𝑝(𝐷|𝑤,𝑀 𝑖)𝑝(𝑤|𝑀 𝑖)
𝑝(𝐷|𝑀 𝑖)
✓ ある二つのモデルエビデンスの比はベイズ因子と呼ばれる。
ベイズ因子：
𝑝(𝐷|𝑀𝑖)
𝑝(𝐷|𝑀 𝑗)

- 17 -
◼ モデルエビデンスの別の解釈
⚫ 式変形。パラメータwに関する積分を単純近似する。（𝑀𝑖は省略）
✓ 事後分布（𝑝 𝐷 𝑤 ）が最頻値𝑤 𝑀𝐴𝑃の近傍で
鋭く尖っている
⇒ 幅をΔ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟とする
✓ 積分で得られる確率を縦×横の面積で近似
⇒ 𝑝 𝐷 𝑤 𝑀𝐴𝑃 × Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
✓ 事前分布が平坦
⇒ 幅をΔ𝑤 𝑝𝑟𝑖𝑜𝑟とする。あるｗが
選ばれる確率は等しいので事前確率
𝑝 𝑤 は
1
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
となる。
⇒ （3.70）：𝑝 𝐷 = ‫׬‬ 𝑝 𝐷 𝑤 𝑝 𝑤 𝑑𝑤 ≃ 𝑝(𝐷|𝑤 𝑀𝐴𝑃)
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
⇒ 対数を取ると、
（3.71）： ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln(
)

- 18 -
◼ モデルエビデンスの別の解釈（続き）
（3.71）： ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln(
)
⇒ Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 < Δ𝑤 𝑝𝑟𝑖𝑜𝑟 なので、ペナルティ項は常に負。
Δ𝑤 𝑝𝑟𝑖𝑜𝑟 に対して Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 が小さい（幅が狭く）なると
ペナルティが強くなる（負の値が大きくなる）。
⇒ 幅がせまい＝過学習（モデルが複雑）の可能性がある。
⚫ モデルがM個のパラメータを含む場合
（3.72）： ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + 𝑀 ln(
)
⇒ パラメータが多いとペナルティ大。
⇒ バランスの良いモデルが選択される。
データへのフィッティング度ペナルティ項
AIC：あるモデルを選択した時に、説明変数の数にペナルティ
BIC：あるモデルを選択した時に、訓練データ数にペナルティ
モデルエビデンス：いくつかのモデルがあった時に、そのモデルの複雑さにペナルティ

- 19 -
◼ モデルエビデンスの別の解釈（続き）
横軸：特定のデータ集合D
縦軸：Dが生成される確率𝑝(𝐷)
モデル：複雑さが単調増加するモデル𝑀1, 𝑀2, 𝑀3
この範囲のデータDはモデル
𝑀1から生成された確率が高い
⇒データの複雑度は低い
この範囲のデータDはモデル
𝑀2から生成された確率が高い
⇒データの複雑度は中程度
⇒データの複雑度に応じて、バランス
の良いモデルが選択される

- 20 -
◼ 正しいモデルを選択
⚫ ベイズモデル比較では、考えているモデル集合の中にデータが生成される
真の分布が含まれていることを暗に仮定。
⇒ この仮定が正しければ、ベイズモデル比較によって平均的に
正しいモデルが選択される。（正しいモデルが選択される確率高）
⚫ 2つのモデル（𝑀1, 𝑀2）のうち、𝑀1が正しいモデルだと仮定する。
⚫ ベイズ因子の期待値を計算。
期待ベイズ因子（3.73）：‫׬‬ 𝑝 𝐷 𝑀1 ln
𝑝(𝐷|𝑀1)
𝑝(𝐷|𝑀2)
𝑑𝐷
（𝑀1が選択された時のデータDが生成される確率× 𝑀1に関するベイズ因子
における全データの積分値）
⇒ この式はKLダイバージェンスと同じ
KLダイバージェンス：𝐾𝐿(𝑝| 𝑞 ≔ ‫׬‬ 𝑝 𝑥 ln
𝑝(𝑥)
𝑞(𝑥)
𝑑𝑥
✓ KLダイバージェンスは常に正。
つまり、常に𝑝(𝐷|𝑀1)> 𝑝(𝐷|𝑀2)であることが期待できる。
※KLﾀﾞｲﾊﾞｰｼﾞｪﾝｽ:Kullback–Leibler divergence

PRML第3章_3.3-3.4

More Related Content

What's hot (20)

Similar to PRML第3章_3.3-3.4 (20)

PRML第3章_3.3-3.4