SlideShare a Scribd company logo
4
Most read
6
Most read
7
Most read
PRML復々習レーン#3
  3.1.3-3.1.5 (代打)
      2012-07-16
    Yoshihiko Suhara
     @sleepy_yoshi
ここのポイント
• (1) 逐次学習
 – 確率的勾配降下法


• (2) 正則化項
 – 誤差関数との関係
 – 特にイメージについて




                   2
3.1.3 逐次学習



             3
確率的勾配降下法
 (Stochastic Gradient Descent; SGD)
• 誤差関数が𝐸 = 𝑛 𝐸 𝑛 のように,データ点に対する
  誤差の和で表現される場合に利用可能

• 各データ点に対する誤差関数の勾配を用いて以下
  の更新式で重みベクトルを更新
 – 𝜂は学習率
   • 収束保証のためには,単調減少させる必要あり
               𝜏+1           𝜏
           𝒘          = 𝒘        − 𝜂 𝜏 𝛻𝐸 𝑛

                        ∞               ∞
 ただし    lim 𝜂 𝜏 = 0
        𝜏→∞
                             𝜂𝜏 = ∞           𝜂2 < ∞
                                               𝜏
                       𝜏=1                             4
                                        𝜏=1
最急降下法 vs. 確率的勾配降下法
ホワイトボードで説明




   最急降下法       確率的勾配降下法
                          5
LMSアルゴリズム
• LMSアルゴリズム
  – 確率的勾配法を用いて最小二乗学習を行う
  – Widrow-Hoffの学習規則,Adalineとも呼ばれる

• データ点 𝜙 𝒙 𝑛 , 𝑡 𝑛 に対する誤差関数は式(3.12)より
                   1
        𝐸𝑛 𝒘 =       𝑡𝑛− 𝒘𝑇 𝜙 𝒙𝑛 2
                   2

• よって勾配𝛻𝐸 𝑛 𝒘 は
      𝛻𝐸 𝑛 𝒘 = 𝑡 𝑛 − 𝒘 𝑇 𝜙 𝒙 𝑛   𝜙(𝒙 𝑛 )

                                           6
LMSアルゴリズム
 INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
OUTPUT: 𝒘

1: Initialize 𝒘0 = 𝟎
2: FOR 𝑛 in 0 to 𝑇 − 1
3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
4:         𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛
                                   𝑛
5: ENDIF
6: ENDFOR
7: RETURN 𝒘 𝑇

                                               7
余談: 二値分類における最小二乗法
• 二値分類においては0-1損失を考える
• 二値分類においてもLMSアルゴリズムは利用可能ではある
 – ただし「正解しすぎても」損失が発生
 – ⇒よりよい0-1損失の近似の利用を検討



               𝐸𝑛
                         アレ?




                    1    𝑦𝑛 𝒘 𝑇 𝒙 𝑛   8
更に余談: よりよい0-1損失の近似
• L1-loss SVM (hinge-loss): 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛
• L2-loss SVM: 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛 2


               L2-loss SVM   𝐸𝑛

  hinge-loss                      こんな損失


    0-1 loss


                                         𝑦𝑛 𝒘 𝑇 𝒙 𝑛        9
3.1.4 正則化最小二乗法



             10
損失関数+正則化項
• 正則化項を加えた損失関数
      𝐸 𝒘 = 𝐸 𝐷 𝒘 + 𝜆𝐸 𝑤 (𝒘)

• 正則化項はたとえば重みベクトルの二乗和を
  利用 (L2正則化項)
                   1 𝑇
           𝐸𝑤   𝒘 = 𝒘 𝒘
                   2



                               11
正則化最小二乗法
• 二乗誤差関数にさきほどの正則化項を加え
  ると誤差関数は
             𝑁
        1              𝑇       2
                                    𝜆 𝑇
  𝐸 𝒘 =           𝑡𝑛− 𝒘 𝜙 𝒙𝑛       + 𝒘 𝒘
        2                           2
            𝑛=1


• 𝒘に関する勾配を0とおき, 𝒘について解けば
  以下を得る
       𝒘 = 𝜆𝐈 + 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕
                                           12
正則化最小二乗の導出
                    𝑇
    𝐿 𝒘 = 𝒚 − 𝑿𝒘        𝒚 − 𝑿𝒘 + 𝜆𝒘 𝑇 𝒘
   𝜕
     𝐿 𝒘 = −2𝑿 𝑇 𝒚 + 2𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 + 𝜆𝒘
  𝜕𝒘

• これを0とおく
          𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 = 𝑿 𝑇 𝒚
          𝑿 𝑇 𝑿 + 𝑰𝜆 𝒘 = 𝑿 𝑇 𝒚
        𝒘 = 𝑿 𝑇 𝑿 + 𝑰𝜆 −1 𝑿 𝑇 𝒚    行列の微分

                                    𝜕 𝑇     𝜕 𝑇
                                       𝒂 𝒙=    𝒙 𝒂= 𝒂
                                    𝜕𝒙      𝜕𝒙

                                          𝑇         13
                                     𝑨𝑩       = 𝑩𝑇 𝑨𝑇
確率的勾配法で解く場合

       L2正則化LMSアルゴリズム
   INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
  OUTPUT: 𝒘

  1: Initialize 𝒘0 = 𝟎
  2: FOR 𝑛 in 0 to 𝑇 − 1
  3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
  4:         𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛 + 𝜆𝒘 𝑛
                                     𝑛
  5: ENDIF
  6: ENDFOR
  7: RETURN 𝒘 𝑇

                                                        14
正則化項について (1/2)
• 一般的な正則化項
                        𝑀
                   𝜆              𝑞
          𝐸𝑤   𝒘 =           𝑤𝑗
                   2
                       𝑗=1

• 𝑞 = 2のときL2正則化項
 – q=1はlassoとも呼ばれる.q=2はridge




                                      15
正則化項について (2/2)
• 誤差関数と正則化項を横から眺める
 – (ホワイトボード)



• 二乗誤差関数+L2正則化項 (凸+凸=凸)
 – 証明はぐぐってください



                          16
正則化項の解釈
• 正則化していない二乗誤差を以下の制約条件
  で最小化することと等しい (演習3.5)
              𝑀
                              𝑞
                      𝑤𝑗          ≤ 𝜂
          𝑗=1


• こたえ
                  𝑀
                                      𝑞
         𝜂=            𝑤 𝑗∗       𝜆
              𝑗=1
                      与えられた𝜆における誤差関数の最適値に依存
                                          (゚Д゚)ハァ?
                                               17
図3.4 を眺める
• 謎の図も今ならわかる




                  18
3.1.5 出力変数が多次元の場合




                    19
目標変数が多次元の場合
• 𝐾次元の目標ベクトル𝒕の推定を試みる
           𝒚 𝒙, 𝒘 = 𝑾 𝑇 𝜙(𝒙)


• 結論 (3.1.1と同様のロジック)
 – 最尤推定値 𝑾 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝐓
 – 各次元の目標変数が相互に依存しないため,𝑘
   番目の目標変数を推定するためのパラメータは
   𝒘 𝑘 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕 𝑘 で求めることができる


                                       20
おしまい


       21

More Related Content

PDF
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
PDF
PRML第3章@京大PRML輪講
PDF
PRML輪読#3
PDF
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PDF
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
PDF
PRML輪読#7
PDF
Prml 3 3.3
PDF
PRML 上 2.3.6 ~ 2.5.2
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
PRML第3章@京大PRML輪講
PRML輪読#3
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
PRML輪読#7
Prml 3 3.3
PRML 上 2.3.6 ~ 2.5.2

What's hot (20)

PDF
Re revenge chap03-1
PDF
Prml3.5 エビデンス近似〜
PDF
PRML輪読#6
PDF
PRML 1.6 情報理論
PDF
PRMLの線形回帰モデル(線形基底関数モデル)
PPTX
PRML2.4 指数型分布族
PDF
PRML輪読#4
PPTX
PRML Chapter 5
PPTX
PRML 4.4-4.5.2 ラプラス近似
PDF
PRML 4.1.6-4.2.2
PDF
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PDF
PRML 6.4-6.5
PDF
PRML第3章_3.3-3.4
PDF
PRML上巻勉強会 at 東京大学 資料 第1章後半
PDF
Prml 1.2,4 5,1.3|輪講資料1120
PDF
パターン認識と機械学習6章(カーネル法)
PPTX
PRML 3.5.2, 3.5.3, 3.6
PDF
PRML BNN 5.7 5.7.3
PDF
PRML 第4章
PDF
PRML輪読#13
Re revenge chap03-1
Prml3.5 エビデンス近似〜
PRML輪読#6
PRML 1.6 情報理論
PRMLの線形回帰モデル(線形基底関数モデル)
PRML2.4 指数型分布族
PRML輪読#4
PRML Chapter 5
PRML 4.4-4.5.2 ラプラス近似
PRML 4.1.6-4.2.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML 6.4-6.5
PRML第3章_3.3-3.4
PRML上巻勉強会 at 東京大学 資料 第1章後半
Prml 1.2,4 5,1.3|輪講資料1120
パターン認識と機械学習6章(カーネル法)
PRML 3.5.2, 3.5.3, 3.6
PRML BNN 5.7 5.7.3
PRML 第4章
PRML輪読#13
Ad

Similar to PRML復々習レーン#3 3.1.3-3.1.5 (20)

PDF
PRML復々習レーン#7 前回までのあらすじ
ZIP
今さら聞けないカーネル法とサポートベクターマシン
PPTX
W8PRML5.1-5.3
PDF
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
PDF
PPTX
統計的学習の基礎_3章
PDF
クラシックな機械学習の入門 3. 線形回帰および識別
PDF
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PPTX
PDF
PRML復々習レーン#9 6.3-6.3.1
PDF
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
PDF
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
PDF
レポート1
PDF
PRML復々習レーン#9 前回までのあらすじ
PDF
Deep feedforward network (Chapter 6 in Deep learning by Ian Goodfellow)
PDF
PRML 6.1章 カーネル法と双対表現
PDF
PRML10-draft1002
PDF
線形識別モデル
PDF
パターン認識 05 ロジスティック回帰
PRML復々習レーン#7 前回までのあらすじ
今さら聞けないカーネル法とサポートベクターマシン
W8PRML5.1-5.3
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
統計的学習の基礎_3章
クラシックな機械学習の入門 3. 線形回帰および識別
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML復々習レーン#9 6.3-6.3.1
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
レポート1
PRML復々習レーン#9 前回までのあらすじ
Deep feedforward network (Chapter 6 in Deep learning by Ian Goodfellow)
PRML 6.1章 カーネル法と双対表現
PRML10-draft1002
線形識別モデル
パターン認識 05 ロジスティック回帰
Ad

More from sleepy_yoshi (20)

PDF
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
PDF
KDD2013読み会: Direct Optimization of Ranking Measures
PDF
PRML復々習レーン#15 前回までのあらすじ
PDF
PRML復々習レーン#14 前回までのあらすじ
PDF
PRML復々習レーン#13 前回までのあらすじ
PDF
PRML復々習レーン#12 前回までのあらすじ
PDF
ICML2013読み会: Distributed training of Large-scale Logistic models
PDF
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
PDF
PRML復々習レーン#11 前回までのあらすじ
PDF
SMO徹底入門 - SVMをちゃんと実装する
PDF
PRML復々習レーン#10 前回までのあらすじ
PDF
PRML復々習レーン#10 7.1.3-7.1.5
PDF
SIGIR2012勉強会 23 Learning to Rank
PDF
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
PDF
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
PDF
PRML復々習レーン#3 前回までのあらすじ
PDF
SVM実践ガイド (A Practical Guide to Support Vector Classification)
PDF
PRML復々習レーン#2 2.3.6 - 2.3.7
PDF
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2013読み会: Direct Optimization of Ranking Measures
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
ICML2013読み会: Distributed training of Large-scale Logistic models
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
計算論的学習理論入門 -PAC学習とかVC次元とか-
PRML復々習レーン#11 前回までのあらすじ
SMO徹底入門 - SVMをちゃんと実装する
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 7.1.3-7.1.5
SIGIR2012勉強会 23 Learning to Rank
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
PRML復々習レーン#3 前回までのあらすじ
SVM実践ガイド (A Practical Guide to Support Vector Classification)
PRML復々習レーン#2 2.3.6 - 2.3.7
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search

PRML復々習レーン#3 3.1.3-3.1.5