PRML読書会復々讐レーン
  5.2 ネットワーク訓練
       2012/11/03
   Presented by takmin
5.2節の概要
ニューラルネットワークのパラメータwを求めた
い!
             (1)           ( 2)
         w             w


                   ・
                   ・
     ・             ・              ・
     ・                            ・
     ・                            ・



誤差関数E(w)を最小化するwを求める。
5.2節の概要
• 5.2 ネットワーク訓練
  – 誤差関数E(w)を定義する
• 5.2.1 – 5.2.3
  – E(w)を最小化するためのアプローチ/条件/注意
    点
• 5.3 誤差逆伝播
  – E(w)を最小化するアルゴリズム
5.2節の概要
• 5.2 ネットワーク訓練
  – 誤差関数E(w)を定義する
• 5.2.1 – 5.2.3
  – E(w)を最小化するためのアプローチ/条件/注意
    点
• 5.3 誤差逆伝播
  – E(w)を最小化するアルゴリズム
5.2節の目的
• 以下の5つのケースについて、誤差関数、及
  びその出力ユニット活性における勾配を定義
  する。
 – 回帰問題
  • 1次元
  • 多次元
 – 識別問題
  • 2クラス
  • 2クラス×K
  • 多クラス
回帰問題(1次元)

               (1)           ( 2)
           w             w          連続値      観測値
                                    (推定値)
                                       ノイズ

x                                    y ε t
                     ・
                     ・
      ・              ・
      ・
      ・




    p(t | x, w)  N (t | y(x, w),  )  1
回帰問題(1次元)

               w( 21)
                  ()
                                     w   ( 2)
               w                                連続値
                                                (推定値)
                                                         観測値
                                                   ノイズ

x         zj
                          
                                                 y
                                                  yε
                                     a               t
                     ・
                     ・
      ・            M ・
               a  w zj
      ・
      ・                       ( 2)
                              j                 ya
                   j 0


    p(t | x, w)  N (t | y(x, w),  )              1
回帰問題(1次元)




p(t | x, w)  N (t | y(x, w),  )
                              1
                                    (5.12)
回帰問題(1次元)
学習データ
   X  x1 , x 2 ,, x N  t  t1 , t2 ,, t N 

尤度を最大化するパラメータwを求める
                         N
  p(t | X, w,  )   p(tn | x n , w,  )
                        n 1
回帰問題(1次元)
 学習データ
      X  x1 , x 2 ,, x N  t  t1 , t2 ,, t N 

 負の対数尤度を最小化するパラメータwを求める
                              N
 ln p(t | X, w,  )   ln p(tn | x n , w,  )
                             n 1
                      N
                 ln N (tn | y (x n , w),  )        1

                     n 1
回帰問題(1次元)
                        N
 ln p(t | X, w,  )   ln N (tn | y(x n , w),  )
                                                 1

                        n 1
                        1
                                              
                  exp   (t n  yn ) 2 
             N
         ln 
                         2
                                           
          n 1  2      2                
                                             
             N
               1                   2
          ln           (tn  yn ) 
          n 1  2  2    2            
                N
                       N   
         (tn  yn )  ln 
                          2
                              
        2 n1          2  2 
回帰問題(1次元)
 負の対数尤度を最小化するパラメータwを求める

 ln p(t | X, w,  )
             N
                                      N   
             y (x , w )  t       ln    (5.13)
                                 2

                                      2  2 
                         n   n
          2   n 1
                                         wに依存しない


  誤差関数E(w) を最小化する
                     N
  E (w)   y(x n , w)  tn 
         1                    2
                                           (5.14)

         2 n 1
回帰問題(1次元)
 負の対数尤度を最小化するパラメータβ を求める

 ln p(t | X, w,  )
             N
                                      N   
             y (x , w )  t       ln    (5.13)
                                 2

                                      2  2 
                       n     n
          2   n 1
回帰問題(1次元)
  負の対数尤度を最小化するパラメータβ を求める

 ln p(t | X, w ML ,  )
             N
                                             N   
             y (x , w        )  tn      ln   
                                       2

                                             2  2 
                     n     ML                       (5.13)
          2   n 1


   誤差関数E(w) を最小化するw = w                ML
回帰問題(1次元)
          
           ln p(t | X, w ML ,  )  0
         
     N                            N         
      2   y(x n , w ML )  tn   2 ln  2     0
                                  2

    n 1                                     
       1 N
          y(xn , w ML )  tn   2  0
                                2  N
       2 n1
                1 N
                 y (x n , w ML )  tn 
         1                                2

         ML    N n 1
回帰問題(1次元)
負の対数尤度を最小化するパラメータβ

             N
         y (x n , w ML )  tn 
 1      1                         2
                                      (5.15)

 ML    N n 1
回帰問題(1次元)
誤差関数の出力ユニット活性 a での勾配
            ( 2)
        w
   zj
                                 y
                       a
                            ya

              1               2
    E (w )         y(x, w)  t 
 a          a  2
                                 
                    y t
回帰問題(1次元)
• まとめ
 – 誤差関数
            1 N
     E (w)   y(x n , w)  tn 
                                 2
                                       (5.12)
            2 n 1
 – ノイズの分散
         1 N
          y (x n , w ML )  tn 
     1                             2
                                       (5.15)
     ML N n1
 – 誤差の勾配
     
        E (w )  y  t
     a
回帰問題(多次元)

               (1)           ( 2)
           w             w              連続値      観測値
                                        (推定値)
                                           ノイズ

x                                        y ε t
                     ・
                     ・
                     ・              ・
       ・                            ・
       ・                            ・
       ・


                                         各次元が独立/
                                          同じ分散

    p(t | x, w)  N (t | y(x, w),  I)     1
                                                       (5.12)
回帰問題(多次元)

                w ((2 )
                    1)
                                   w      ( 2)
                w                            ・
                                             ・
                                             ・
                                                     連続値
                                                     (推定値)
                                                               観測値
                                                         ノイズ
                              
x          zj
                                     ak
                                                      y y kε t
                            ・
                            ・
                            ・               ・
       ・                                    ・    ・
       ・
       ・
                                            ・    ・
                                                 ・
                          M
                ak   w z j      ( 2)
                                  kj                     ak
                                                     yk 各次元が独立/
                          j 0                          同じ分散

    p(t | x, w)  N (t | y(x, w),  I)                  1
                                                                     (5.12)
回帰問題(多次元)
演習5.2                           N
  ln p(t | X, w,  )   ln N (t n | y (x n , w),  1I)
                                n 1

                                  K
                                                  
                        exp   t n  y n 2 
                  N
            ln 
                                    2
                                               
             n 1     2      2              
                                                 
              N
                  K                 2
             ln           tn  yn 
             n 1  2    2 2            
                 N
                                          NK     
               t            yn       
                                    2
                                             ln
                                                2
                         n
              2   n 1                     2
回帰問題(多次元)
負の対数尤度を最小化するパラメータwを求める

 ln p(t | X, w,  )
             N
                                      NK     
           t            yn       
                                2
                                         ln
                                            2
                     n
          2   n 1                     2
                                        wに依存しない


誤差関数E(w) を最小化する
               N
        1
E (w )   y (x n , w )  t n
                                        2

        2 n 1
回帰問題(多次元)
負の対数尤度を最小化するパラメータβ を求める

 ln p(t | X, w,  )
              N
                                          NK     
            t               yn       
                                    2
                                             ln
                                                2
                        n
           2   n 1                        2
                                       
                                        ln p(t | X, w,  )  0
                                      
                      N
     1        1
                      y (x , w             )  tn
                                                      2

     ML
                                n       ML
             NK       n 1
回帰問題(多次元)
誤差関数の出力ユニット活性                          ak での勾配
             ( 2)
         w
                                      yk
    zj
                        ak
                             yk  ak

                           1                   2

ak
    E (w ) 
             ak              2 yk (x, w)  tk  
                                                  
                 yk  t k
回帰問題(多次元)
• まとめ
 – 誤差関数
             1 N
     E (w )   y (x n , w )  t n
                                     2

             2 n 1
 – ノイズの分散
     1    1 N
            y(xn , w ML )  t n
                                         2
                                             (5.17)
     ML NK n1
 – 誤差の勾配
      
         E (w)  yk  t k
     ak
識別問題(2クラス)

             (1)                ( 2)
         w             w               出力            判別値
                                       (0 ~1)        (0 or 1)
                                                閾値

x                      zj
                                         y             t
                   ・
                   ・
    ・              ・
    ・
    ・




p(t | x, w)  y(x, w) 1  y(x, w)
                            t                    1t
                                                            (5.12)
識別問題(2クラス)

               ( 2 )(1)         w         ( 2)
             ww                                  出力
                                                 (0 ~1)
                                                               判別値
                                                               (0 or 1)

                                      
                                                          閾値

x       zj
                                                     y
                                                      y
                               az
                                  j
                                                                 t
    ・             M
                          ・
                          ・
                          ・               y   (a)
    ・
    ・        a   w(j2) z j
                                                    1
                  j 0
                                                                (5.19)
                                              1  exp( a)
p(t | x, w)  y(x, w) 1  y(x, w)   t                    1t
                                                                          (5.12)
識別問題(2クラス)

               ( 2 )(1)         w         ( 2)
             ww                                  出力
                                                 (0 ~1)
                                                               判別値
                                                               (0 or 1)

                                      
                                                          閾値

x       zj
                                                     y
                                                      y
                               az
                                  j
                                                                 t
    ・             M
                          ・
                          ・
                          ・               y   (a)
    ・
    ・        a   w(j2) z j
                                                    1
                  j 0
                                            
                                              1  exp( a)
p(t | x, w)  y(x, w) 1  y(x, w)   t                    1t
                                                                      (5.12)
識別問題(2クラス)
尤度
                N
p(t | X, w)   y (x n , w) 1  y(x n , w) 
                              tn                   1t n

                n 1


負の対数尤度=誤差関数
 E (w )   ln p(t | X, w )
          N
       tn ln yn  (1  tn ) ln 1  yn    (5.21)

         n 1
                 交差エントロピー誤差関数
識別問題(2クラス)
誤差関数の出力ユニット活性 a での勾配
             ( 2)
         w
    zj
                                  y
                        a
                            y   (a)

            
   E (w)   t ln y  (1  t ) ln 1  y 
a          a
                 y t
識別問題(2クラス)
演習5.6
                
     E (w)   t ln y  (1  t ) ln 1  y 
  a            a
                1 y              1  y 
             t      (1  t )         
                y a            1  y  a 
              y
y   (a)         y (1  y )   (4.88)   より
              a
             t (1  y)  (1  t ) y
             y t
識別問題(2クラス)
• まとめ
 – 誤差関数
             N
  E (w)   tn ln yn  (1  tn ) ln 1  yn    (5.21)
             n 1
   交差エントロピー誤差関数

 – 誤差の勾配

    
      E (w )  y  t
   a
識別問題(2クラス×K)
                                                閾値

                  (1)           ( 2)
             w              w
   x
                        ・
                        ・
                                           yk        tk
                        ・              ・
         ・                             ・
         ・                             ・
         ・




              K
p(t | x, w)   yk (x, w) 1  yk (x, w) 
                                tk                        1t k
                                                                  (5.22)

             k 1
識別問題(2クラス×K)
                                                          閾値

                 ( 2 )(1)            w    ( 2)
              ww
   x     zj
                                                   yk
                                    ak
                                ・                    yk        tk
         ・           M
                                ・
                                ・        y k   ( ak )
                                               ・
              ak   wkj2) z j
         ・            (                        ・
         ・                                       ・
                                                      1
                     j 0
                                                                (5.19)
                                                1  exp( ak )
                 K
p(t | x, w)   yk (x, w) 1  yk (x, w) 
                                         tk                         1t k
                                                                            (5.22)

                k 1
識別問題(2クラス×K )
  尤度
                    N     K
p(t | X, w)   yk (x n , w)     t nk
                                         1  yk (x n , w)
                                                          1t nk

                    n 1 k 1



  負の対数尤度=誤差関数
E (w )   ln p(t | X, w )
         N   K
      t nk ln ynk  (1  t nk ) ln 1  ynk  (5.21)
        n 1 k 1
                          交差エントロピー誤差関数
識別問題(2クラス×K )
  誤差関数の出力ユニット活性                       ak での勾配
                  ( 2)
              w
         zj
                                     yk
                             a
                             yk   (ak )

               K                                     
ak
    E (w)        tk ln yk  (1  tk ) ln 1  yk 
              ak  k 1                                
               yk  t k
識別問題(2クラス×K )
• まとめ
 – 誤差関数
             N   K
 E (w)   tnk ln ynk  (1  tnk ) ln 1  ynk  (5.23)
            n 1 k 1
 交差エントロピー誤差関数

 – 誤差の勾配
   
      E (w)  yk  t k
  ak
識別問題(多クラス)

            (1)           ( 2)
        w             w              出力
                                         y1 
x                                    y   
                  ・
                                         
    ・
    ・
    ・
                  ・
                  ・              ・
                                 ・
                                 ・
                                         yK 
                                         
                                          K

                                      y
                                      k 1
                                              k   1
識別問題(多クラス)

            (1)           ( 2)
        w             w              出力        判別値
                                               (1 of K)
                                          閾値

x                                    y           t
                  ・
                  ・
                  ・              ・
    ・                            ・
    ・                            ・
    ・




                          t  [0,,1,,0]                 T
識別問題(多クラス)

             (1)           ( 2)
         w             w               出力        判別値
                                                 (1 of K)
                                            閾値

x                                      y           t
                   ・
                   ・
                   ・              ・
     ・                            ・
     ・                            ・
     ・



               K
p(t | x, w)   yk (x, w)         tk

               k 1
識別問題(多クラス)

            ( 2 )(1)            w   ( 2)
          ww                                       出力        判別値
                                                             (1 of K)

                                    
                                                        閾値
                                                  yk
x    zj
                               ak
                                                   y            t
                           ・
                           ・
                           ・
     ・         M
                                          exp( ak )
                                           ・
          ak   w z j
                                           ・
                                    yk 
     ・                  ( 2)               ・
     ・

                                          exp(a j )
                        kj
               j 0
                                                               (5.25)
                                               j
                      K
p(t | x, w)   yk (x, w)
                                        ソフトマックス関数
                                         tk

                      k 1
識別問題(多クラス)
尤度
                         N     K
      p(t | X, w)   yk (x n , w)    t nk

                         n 1 k 1



負の対数尤度=誤差関数
     E (w )   ln p(t | X, w )
              N   K
           t nk ln yk (x n , w )          (5.25)

             n 1 k 1
識別問題(多クラス )
誤差関数の出力ユニット活性                   ak での勾配
            ( 2)
        w
                                  yk   yk 
                                               exp( ak )
                                               exp(a j )
   zj
                       ak
                                               j


                             K
                                      
 ak
     E (w )        tk ln yk (x, w)
                ak  k 1            
                    yk  t k
識別問題(多クラス)
 演習5.7
                K                        K     1 y j 
    E (w )        t j ln y j (x, w)    t j         
ak            ak  j 1                    j 1 y j ak 
                                                           

 yk 
       exp( ak )         y j
                                 y j ( jk  yk )
       exp(a j )
        j
                         ak
                                                     (4.107)   より


                K     1                   
               t j     y j ( jk  yk )
                 j 1 y j
                                          
                                           
識別問題(多クラス)
演習5.7 (続き)
                K     1                   
     E ( w )    t j     y j ( jk  yk )
 ak              j 1 y j
                                           
                                            
                 K
               t j ( yk   jk )
                j 1
                       K      K
              yk  t j   t j jk
                       j 1   j 1


              yk  t k
識別問題(多クラス )
• まとめ
 – 誤差関数
                  N     K
        E (w)   tnk ln ynk (x n , w)   (5.24)
                  n 1 k 1


 – 誤差の勾配
  
     E (w)  yk  t k
 ak
まとめ
• 回帰問題及び識別問題について、誤差関数
  を負の対数尤度で定義
• 各ニューロンにおける誤差関数の出力ユニッ
  ト活性による勾配は、回帰問題でも識別問題
  でも以下のようにかける。
     
        E (w)  yk  t k   (5.18)
    ak
誤差関数まとめ

              1 N
     1次元            y(x n , w)  tn 2                      (5.12)
回帰            2 n 1
問題            1 N
                 yn  tn
                               2
     多次元
              2 n 1
              N
     2クラス     t
              n 1
                      n   ln yn  (1  tn ) ln 1  yn      (5.21)


識別   2クラス
                 N    K
              tnk ln ynk  (1  tnk ) ln 1  ynk  (5.23)
問題   ×K        n 1 k 1
                  N   K
     多クラス     tnk ln ynk (x n , w)                       (5.24)
               n 1 k 1
以上!

More Related Content

PPTX
PRML Chapter 5
PDF
PDF
PRML 5章 PP.227-PP.247
PDF
PRML輪読#5
PDF
PRML復々習レーン#9 前回までのあらすじ
PDF
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PDF
PRML輪読#3
PDF
PRML 5.3-5.4
PRML Chapter 5
PRML 5章 PP.227-PP.247
PRML輪読#5
PRML復々習レーン#9 前回までのあらすじ
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML輪読#3
PRML 5.3-5.4

What's hot (20)

PDF
Prml 3 3.3
PPTX
PRML第6章「カーネル法」
PDF
PDF
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PDF
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PPTX
W8PRML5.1-5.3
PDF
PRML 第4章
PPTX
2014.02.20_5章ニューラルネットワーク
PDF
PRML輪読#7
PDF
PRML 8.2 条件付き独立性
PDF
PRML輪読#4
PDF
異常検知と変化検知 第4章 近傍法による異常検知
PDF
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PPTX
PRML第9章「混合モデルとEM」
PPTX
Prml nn
PDF
東京都市大学 データ解析入門 3 行列分解 2
PDF
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
PDF
Chapter2.3.6
PDF
PRMLの線形回帰モデル(線形基底関数モデル)
Prml 3 3.3
PRML第6章「カーネル法」
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
W8PRML5.1-5.3
PRML 第4章
2014.02.20_5章ニューラルネットワーク
PRML輪読#7
PRML 8.2 条件付き独立性
PRML輪読#4
異常検知と変化検知 第4章 近傍法による異常検知
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
変分推論法(変分ベイズ法)(PRML第10章)
PRML第9章「混合モデルとEM」
Prml nn
東京都市大学 データ解析入門 3 行列分解 2
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
Chapter2.3.6
PRMLの線形回帰モデル(線形基底関数モデル)
Ad

Similar to PRML Chapter5.2 (20)

PDF
Re revenge chap03-1
PDF
PRML復々習レーン#3 3.1.3-3.1.5
PDF
パターン認識 05 ロジスティック回帰
PDF
PRML復々習レーン#7 前回までのあらすじ
ZIP
今さら聞けないカーネル法とサポートベクターマシン
PDF
PRML復々習レーン#9 6.3-6.3.1
PDF
PRML ベイズロジスティック回帰
PDF
PDF
回帰
PDF
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
PDF
Prml 4.3.6
PDF
PRML 6.1章 カーネル法と双対表現
PDF
PDF
クラシックな機械学習の入門 3. 線形回帰および識別
PDF
分布 isseing333
PDF
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
PDF
Chapter6.4
PDF
PRML復々習レーン#2 2.3.6 - 2.3.7
PDF
PRML10-draft1002
PDF
Chapter9 2
Re revenge chap03-1
PRML復々習レーン#3 3.1.3-3.1.5
パターン認識 05 ロジスティック回帰
PRML復々習レーン#7 前回までのあらすじ
今さら聞けないカーネル法とサポートベクターマシン
PRML復々習レーン#9 6.3-6.3.1
PRML ベイズロジスティック回帰
回帰
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
Prml 4.3.6
PRML 6.1章 カーネル法と双対表現
クラシックな機械学習の入門 3. 線形回帰および識別
分布 isseing333
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
Chapter6.4
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML10-draft1002
Chapter9 2
Ad

More from Takuya Minagawa (20)

PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
PDF
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
PDF
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
PDF
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
PDF
MobileNeRF
PDF
点群SegmentationのためのTransformerサーベイ
PDF
Learning to Solve Hard Minimal Problems
PDF
ConditionalPointDiffusion.pdf
PDF
楽しいコンピュータビジョンの受託仕事
PDF
20210711 deepI2P
PDF
20201010 personreid
PDF
20200910コンピュータビジョン今昔物語(JPTA講演資料)
PDF
2020/07/04 BSP-Net (CVPR2020)
PDF
20200704 bsp net
PDF
20190825 vins mono
PDF
20190706cvpr2019_3d_shape_representation
PDF
20190307 visualslam summary
PDF
Visual slam
PDF
20190131 lidar-camera fusion semantic segmentation survey
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
MobileNeRF
点群SegmentationのためのTransformerサーベイ
Learning to Solve Hard Minimal Problems
ConditionalPointDiffusion.pdf
楽しいコンピュータビジョンの受託仕事
20210711 deepI2P
20201010 personreid
20200910コンピュータビジョン今昔物語(JPTA講演資料)
2020/07/04 BSP-Net (CVPR2020)
20200704 bsp net
20190825 vins mono
20190706cvpr2019_3d_shape_representation
20190307 visualslam summary
Visual slam
20190131 lidar-camera fusion semantic segmentation survey

PRML Chapter5.2

  • 1. PRML読書会復々讐レーン 5.2 ネットワーク訓練 2012/11/03 Presented by takmin
  • 2. 5.2節の概要 ニューラルネットワークのパラメータwを求めた い! (1) ( 2) w w ・ ・ ・ ・ ・ ・ ・ ・ ・ 誤差関数E(w)を最小化するwを求める。
  • 3. 5.2節の概要 • 5.2 ネットワーク訓練 – 誤差関数E(w)を定義する • 5.2.1 – 5.2.3 – E(w)を最小化するためのアプローチ/条件/注意 点 • 5.3 誤差逆伝播 – E(w)を最小化するアルゴリズム
  • 4. 5.2節の概要 • 5.2 ネットワーク訓練 – 誤差関数E(w)を定義する • 5.2.1 – 5.2.3 – E(w)を最小化するためのアプローチ/条件/注意 点 • 5.3 誤差逆伝播 – E(w)を最小化するアルゴリズム
  • 5. 5.2節の目的 • 以下の5つのケースについて、誤差関数、及 びその出力ユニット活性における勾配を定義 する。 – 回帰問題 • 1次元 • 多次元 – 識別問題 • 2クラス • 2クラス×K • 多クラス
  • 6. 回帰問題(1次元) (1) ( 2) w w 連続値 観測値 (推定値) ノイズ x y ε t ・ ・ ・ ・ ・ ・ p(t | x, w)  N (t | y(x, w),  ) 1
  • 7. 回帰問題(1次元) w( 21) () w ( 2) w 連続値 (推定値) 観測値 ノイズ x zj  y yε a t ・ ・ ・ M ・ a  w zj ・ ・ ( 2) j ya j 0 p(t | x, w)  N (t | y(x, w),  ) 1
  • 8. 回帰問題(1次元) p(t | x, w)  N (t | y(x, w),  ) 1 (5.12)
  • 9. 回帰問題(1次元) 学習データ X  x1 , x 2 ,, x N  t  t1 , t2 ,, t N  尤度を最大化するパラメータwを求める N p(t | X, w,  )   p(tn | x n , w,  ) n 1
  • 10. 回帰問題(1次元) 学習データ X  x1 , x 2 ,, x N  t  t1 , t2 ,, t N  負の対数尤度を最小化するパラメータwを求める N  ln p(t | X, w,  )   ln p(tn | x n , w,  ) n 1 N   ln N (tn | y (x n , w),  ) 1 n 1
  • 11. 回帰問題(1次元) N  ln p(t | X, w,  )   ln N (tn | y(x n , w),  ) 1 n 1  1     exp   (t n  yn ) 2  N   ln  2    n 1  2   2    N 1     2    ln    (tn  yn )  n 1  2  2  2   N N      (tn  yn )  ln  2  2 n1 2  2 
  • 12. 回帰問題(1次元) 負の対数尤度を最小化するパラメータwを求める  ln p(t | X, w,  )  N N       y (x , w )  t   ln   (5.13) 2 2  2  n n 2 n 1 wに依存しない 誤差関数E(w) を最小化する N E (w)   y(x n , w)  tn  1 2 (5.14) 2 n 1
  • 13. 回帰問題(1次元) 負の対数尤度を最小化するパラメータβ を求める  ln p(t | X, w,  )  N N       y (x , w )  t   ln   (5.13) 2 2  2  n n 2 n 1
  • 14. 回帰問題(1次元) 負の対数尤度を最小化するパラメータβ を求める  ln p(t | X, w ML ,  )  N N       y (x , w )  tn   ln   2 2  2  n ML (5.13) 2 n 1 誤差関数E(w) を最小化するw = w ML
  • 15. 回帰問題(1次元)   ln p(t | X, w ML ,  )  0    N N     2   y(x n , w ML )  tn   2 ln  2   0 2   n 1   1 N  y(xn , w ML )  tn   2  0 2 N 2 n1 1 N   y (x n , w ML )  tn  1 2  ML N n 1
  • 16. 回帰問題(1次元) 負の対数尤度を最小化するパラメータβ N   y (x n , w ML )  tn  1 1 2 (5.15)  ML N n 1
  • 17. 回帰問題(1次元) 誤差関数の出力ユニット活性 a での勾配 ( 2) w zj  y a ya   1 2 E (w )  y(x, w)  t  a a  2    y t
  • 18. 回帰問題(1次元) • まとめ – 誤差関数 1 N E (w)   y(x n , w)  tn  2 (5.12) 2 n 1 – ノイズの分散 1 N   y (x n , w ML )  tn  1 2 (5.15)  ML N n1 – 誤差の勾配  E (w )  y  t a
  • 19. 回帰問題(多次元) (1) ( 2) w w 連続値 観測値 (推定値) ノイズ x y ε t ・ ・ ・ ・ ・ ・ ・ ・ ・ 各次元が独立/ 同じ分散 p(t | x, w)  N (t | y(x, w),  I) 1 (5.12)
  • 20. 回帰問題(多次元) w ((2 ) 1) w ( 2) w ・ ・ ・ 連続値 (推定値) 観測値 ノイズ  x zj ak y y kε t ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ M ak   w z j ( 2) kj  ak yk 各次元が独立/ j 0 同じ分散 p(t | x, w)  N (t | y(x, w),  I) 1 (5.12)
  • 21. 回帰問題(多次元) 演習5.2 N  ln p(t | X, w,  )   ln N (t n | y (x n , w),  1I) n 1  K     exp   t n  y n 2  N   ln  2    n 1  2   2    N K   2    ln  tn  yn  n 1  2 2 2   N NK   t  yn  2 ln 2 n 2 n 1 2
  • 22. 回帰問題(多次元) 負の対数尤度を最小化するパラメータwを求める  ln p(t | X, w,  )  N NK   t  yn  2 ln 2 n 2 n 1 2 wに依存しない 誤差関数E(w) を最小化する N 1 E (w )   y (x n , w )  t n 2 2 n 1
  • 23. 回帰問題(多次元) 負の対数尤度を最小化するパラメータβ を求める  ln p(t | X, w,  )  N NK   t  yn  2 ln 2 n 2 n 1 2   ln p(t | X, w,  )  0  N 1 1   y (x , w )  tn 2  ML n ML NK n 1
  • 24. 回帰問題(多次元) 誤差関数の出力ユニット活性 ak での勾配 ( 2) w  yk zj ak yk  ak   1 2 ak E (w )  ak  2 yk (x, w)  tk      yk  t k
  • 25. 回帰問題(多次元) • まとめ – 誤差関数 1 N E (w )   y (x n , w )  t n 2 2 n 1 – ノイズの分散 1 1 N   y(xn , w ML )  t n 2 (5.17)  ML NK n1 – 誤差の勾配  E (w)  yk  t k ak
  • 26. 識別問題(2クラス) (1) ( 2) w w 出力 判別値 (0 ~1) (0 or 1) 閾値 x zj y t ・ ・ ・ ・ ・ ・ p(t | x, w)  y(x, w) 1  y(x, w) t 1t (5.12)
  • 27. 識別問題(2クラス) ( 2 )(1) w ( 2) ww 出力 (0 ~1) 判別値 (0 or 1)  閾値 x zj  y y az j t ・ M ・ ・ ・ y   (a) ・ ・ a   w(j2) z j 1 j 0  (5.19) 1  exp( a) p(t | x, w)  y(x, w) 1  y(x, w) t 1t (5.12)
  • 28. 識別問題(2クラス) ( 2 )(1) w ( 2) ww 出力 (0 ~1) 判別値 (0 or 1)  閾値 x zj  y y az j t ・ M ・ ・ ・ y   (a) ・ ・ a   w(j2) z j 1 j 0  1  exp( a) p(t | x, w)  y(x, w) 1  y(x, w) t 1t (5.12)
  • 29. 識別問題(2クラス) 尤度 N p(t | X, w)   y (x n , w) 1  y(x n , w)  tn 1t n n 1 負の対数尤度=誤差関数 E (w )   ln p(t | X, w ) N   tn ln yn  (1  tn ) ln 1  yn  (5.21) n 1 交差エントロピー誤差関数
  • 30. 識別問題(2クラス) 誤差関数の出力ユニット活性 a での勾配 ( 2) w zj   y a y   (a)   E (w)   t ln y  (1  t ) ln 1  y  a a  y t
  • 31. 識別問題(2クラス) 演習5.6   E (w)   t ln y  (1  t ) ln 1  y  a a  1 y 1  y    t  (1  t )     y a 1  y  a  y y   (a)  y (1  y ) (4.88) より a  t (1  y)  (1  t ) y  y t
  • 32. 識別問題(2クラス) • まとめ – 誤差関数 N E (w)   tn ln yn  (1  tn ) ln 1  yn  (5.21) n 1 交差エントロピー誤差関数 – 誤差の勾配  E (w )  y  t a
  • 33. 識別問題(2クラス×K) 閾値 (1) ( 2) w w x ・ ・ yk tk ・ ・ ・ ・ ・ ・ ・ K p(t | x, w)   yk (x, w) 1  yk (x, w)  tk 1t k (5.22) k 1
  • 34. 識別問題(2クラス×K) 閾値 ( 2 )(1) w ( 2) ww x zj   yk ak ・ yk tk ・ M ・ ・ y k   ( ak ) ・ ak   wkj2) z j ・ ( ・ ・ ・ 1 j 0  (5.19) 1  exp( ak ) K p(t | x, w)   yk (x, w) 1  yk (x, w)  tk 1t k (5.22) k 1
  • 35. 識別問題(2クラス×K ) 尤度 N K p(t | X, w)   yk (x n , w) t nk 1  yk (x n , w) 1t nk n 1 k 1 負の対数尤度=誤差関数 E (w )   ln p(t | X, w ) N K   t nk ln ynk  (1  t nk ) ln 1  ynk  (5.21) n 1 k 1 交差エントロピー誤差関数
  • 36. 識別問題(2クラス×K ) 誤差関数の出力ユニット活性 ak での勾配 ( 2) w zj   yk a yk   (ak )   K  ak E (w)    tk ln yk  (1  tk ) ln 1  yk  ak  k 1   yk  t k
  • 37. 識別問題(2クラス×K ) • まとめ – 誤差関数 N K E (w)   tnk ln ynk  (1  tnk ) ln 1  ynk  (5.23) n 1 k 1 交差エントロピー誤差関数 – 誤差の勾配  E (w)  yk  t k ak
  • 38. 識別問題(多クラス) (1) ( 2) w w 出力  y1  x y    ・   ・ ・ ・ ・ ・ ・ ・ ・  yK    K y k 1 k 1
  • 39. 識別問題(多クラス) (1) ( 2) w w 出力 判別値 (1 of K) 閾値 x y t ・ ・ ・ ・ ・ ・ ・ ・ ・ t  [0,,1,,0] T
  • 40. 識別問題(多クラス) (1) ( 2) w w 出力 判別値 (1 of K) 閾値 x y t ・ ・ ・ ・ ・ ・ ・ ・ ・ K p(t | x, w)   yk (x, w) tk k 1
  • 41. 識別問題(多クラス) ( 2 )(1) w ( 2) ww 出力 判別値 (1 of K)  閾値  yk x zj ak y t ・ ・ ・ ・ M exp( ak ) ・ ak   w z j ・ yk  ・ ( 2) ・ ・  exp(a j ) kj j 0 (5.25) j K p(t | x, w)   yk (x, w) ソフトマックス関数 tk k 1
  • 42. 識別問題(多クラス) 尤度 N K p(t | X, w)   yk (x n , w) t nk n 1 k 1 負の対数尤度=誤差関数 E (w )   ln p(t | X, w ) N K   t nk ln yk (x n , w ) (5.25) n 1 k 1
  • 43. 識別問題(多クラス ) 誤差関数の出力ユニット活性 ak での勾配 ( 2) w   yk yk  exp( ak )  exp(a j ) zj ak j    K  ak E (w )    tk ln yk (x, w) ak  k 1   yk  t k
  • 44. 識別問題(多クラス) 演習5.7   K  K 1 y j  E (w )    t j ln y j (x, w)    t j  ak ak  j 1   j 1 y j ak    yk  exp( ak ) y j  y j ( jk  yk )  exp(a j ) j ak (4.107) より K 1     t j y j ( jk  yk )  j 1 y j   
  • 45. 識別問題(多クラス) 演習5.7 (続き)  K 1  E ( w )    t j y j ( jk  yk ) ak  j 1 y j    K   t j ( yk   jk ) j 1 K K  yk  t j   t j jk j 1 j 1  yk  t k
  • 46. 識別問題(多クラス ) • まとめ – 誤差関数 N K E (w)   tnk ln ynk (x n , w) (5.24) n 1 k 1 – 誤差の勾配  E (w)  yk  t k ak
  • 47. まとめ • 回帰問題及び識別問題について、誤差関数 を負の対数尤度で定義 • 各ニューロンにおける誤差関数の出力ユニッ ト活性による勾配は、回帰問題でも識別問題 でも以下のようにかける。  E (w)  yk  t k (5.18) ak
  • 48. 誤差関数まとめ 1 N 1次元  y(x n , w)  tn 2 (5.12) 回帰 2 n 1 問題 1 N  yn  tn 2 多次元 2 n 1 N 2クラス   t n 1 n ln yn  (1  tn ) ln 1  yn  (5.21) 識別 2クラス N K   tnk ln ynk  (1  tnk ) ln 1  ynk  (5.23) 問題 ×K n 1 k 1 N K 多クラス   tnk ln ynk (x n , w) (5.24) n 1 k 1