SlideShare a Scribd company logo
第6回PRML読書会

ニューラルネットワーク

  発表者:堀川隆弘
   id:thorikawa
4章の復習
• 4.3.2 ロジスティック回帰
 – 2クラス分類
 – 事後確率は特徴ベクトルの線形関数のロジス
   ティック・シグモイド関数として表せる。
  p(C1 |  )  y( )   (w  )
                           T


 – 尤度の負の対数をとると、交差エントロピー
   誤差関数を得られる。
           N
  E(w)   t n ln yn  (1  t n )ln(1  yn )
          n1
4章の復習
• 4.3.4 多クラスロジスティック回帰
 – 多クラス分類
 – 事後確率は特徴ベクトルの線形関数のソフト
   マックス関数として表せる
                          exp(ak )
  p(Ck |  )  yk ( ) 
                          j exp(aj )
  ak  w k
         T



 – 尤度の負の対数をとると、以下の交差エント
   ロピー誤差関数を得られる。
              N   N
  E(w)   t nk ln ynk
           n1 k 1
ニューラルネットワーク
       イントロ
• 3章・4章で議論してきた基底関数の線形
  和で表わされるモデルを、実際の問題に
  適用していくためには、固定の基底関数
  ではなく、基底関数をデータに適応させ
  る必要がある。

• 解決のアプローチとして、SVM(7章)と
  ニューラルネットワークがある。
SVMとニューラルネットワーク
• SVM
 – 訓練データ点を中心とした基底関数群をまず定義
   し、その中の一部を訓練中に選ぶ
 – コンパクトではない(基底関数の数が多い)

• ニューラルネットワーク
 – 事前に基底関数の数を固定し、それらに対してパ
   ラメトリック形を用い、そのパラメータ値を訓練
   中に適応させる
 – コンパクト(新規のデータを素早く処理すること
   ができる)
5.1 フィードフォワード
  ネットワーク関数
フィードフォワードネットワーク

• 回帰・2クラス分類・多クラス分類、い
  ずれのパターンも特徴空間上の一般化線
  形関数として表せた。
• さらに、特徴空間の基底関数 (x) をパラ
  メータ依存として、これらのパラメータ
  を訓練中に、調整することを考える。
                   
• ニューラルネットワークにおいては、 (x)
  自体が入力の線形和の非線形関数とする。
フィードフォワードネットワーク

           隠れユニット
           a(j1 )   w (1) xi
                         ji

           z j  h(a j )


           出力ユニット

           ak2 )   w (1) z j
            (
                       kj

           yk   (ak )
関数近似特性
• 線形出力を持つ2層ネットワークは、十
  分な数の隠れユニットがあれば、コンパ
  クトな定義域を持つどんな連続関数でも、
  任意の精度で一様に近似できる。
• 以下、証明概略
 – 参考文献
  • 熊沢逸夫「学習とニューラルネットワーク」(森
    北出版)
関数近似特性 - 証明概略
• 1変数関数の近似の場合
• まず、以下の関数Imulseを定義
                              
 Im pulse(x)  (x  )   (x  )
                    2          2




                  Impulse(x)は0で急峻に立ち
                  上がる関数になる
関数近似特性 - 証明概略
• 任意の関数(*)はImpulse関数の線形和で
  近似できる。
  – f(x)のx    n における標本値f (  n) を求め
    f ( 
    る。n)             Im pulse(x    n)
  –      を重みとして        を加え
         N
      合わせることで元の関数を近似できる。
      f (x)   f (  n)  Im pulse(x   n)
             n 0


*有限の定義域を持つ二乗可積分とする
関数近似特性 - 証明概略
• Impulseの定義を代入すると
          N
 f (x)   wn   (x    n)
         n 0
 wn  f (  n)  f (  (n  1))
• これは、N個の隠れユニットとシグモイド関
  数を活性化関数にもつ、2層ニューラルネッ
  トワークで計算できる
• つまり、任意の連続な1変数は2層ニューラ
  ルネットワークで、任意の精度で近似できる。
関数近似特性 - 証明概略
    • 多変数関数の近似の場合
    • フーリエ級数展開を用いる
                                                           2        2                2       
                                          an1 n2 nM sin
                                                            T n1 x1  T n2 x2      T nM xM  
                                                                                                 
                         N1 N2       NM
                                                           1                                    
f (x1 , x2 ,  xM )        
                                                                        2                 M
                                                                                                     
                        n1 0 n2 0 nM 0                     2        2               2      
                                                                                                  
                                           bn1 n2 nM cos T n1 x1  T n2 x2      T nM xM 
                                                              1          2                M      
関数近似特性 - 証明概略
• また、1変数関数の場合、任意の精度で近
  似できることが分かっているので、適当
  なxの範囲で、sin(x),cos(x)を近似する
  ネットワークを構成することができる。
              N
 sin(x)     s  (x  n)
            n  N
                     n

              N
 cos(x)      c  (x  n)
            n  N
                     n
関数近似特性 - 証明概略
     • フーリエ級数展開に、sin(x),cos(x)のNN
       展開を代入
                                                           2        2                2       
                                          an1 n2 nM sin
                                                            T n1 x1  T n2 x2      T nM xM  
                                                                                                 
                         N1 N2       NM
                                                           1                                    
f (x1 , x2 ,  xM )        
                                                                        2                 M
                                                                                                     
                        n1 0 n2 0 nM 0                     2        2               2      
                                                                                                  
                                           bn1 n2 nM cos T n1 x1  T n2 x2      T nM xM 
                                                              1          2                M      

    f (x1 , x2 ,  xM ) 
         N1   N2      NM      N
                                                    2         2                 2            
           
                                 wnn1 n2 nM  
                                                   T   n1 x1     n2 x2         nM xM  n 
                                                                                                 
        n1 0 n2 0   nM 0 n  N                  1          T2                 TM            

                           ただし、      wnn1 n2 nM        は整理後の係数
関数近似特性 - 証明概略
• 入力変数の線形和に対して、シグモイド
  関数で活性化し、さらにその線形和を
  とっている⇒ニューラルネットワークで
  計算可能


• つまり与えられた多変数関数を、任意の
  精度で近似するニューラルネットワーク
  が存在する。
5.1 重み空間対称性
重み空間対称性
• 同じ入力から出力への関数を表わす重みベク
  トルwが複数選べる

• 活性化関数が奇関数ならば、重みパラメータ
  の符号を反転させても同じ出力となる。
  (2^Mの等価な重みベクトル)

• ある隠れユニットに入る重みパラメータと、
  別の隠れユニットに入る重みパラメータを丸
  ごと入れ替えても同じ出力となる。(M!の等
  価な重みベクトル)
5.2 ネットワーク訓練
ネットワーク訓練
• ネットワークパラメータ(重みパラメー
  タとバイアスパラメータ)の決定問題へ
  のアプローチを考える。

• 単純なアプローチは、1.1節と同様、二乗
  和誤差関数を最小化することだけど、、
二乗和誤差と決めてかからずに
     確率的な解釈
• はじめに確率的な解釈しておくと後が楽。

• 尤度を最大化する重みは何か?
誤差関数とその微分を求める
• 4章ですでにいろいろなモデルの確率的解
  釈を行ってきた。

• 負の対数尤度から誤差関数を求めよう。
誤差関数とその微分を求める
• それぞれ見てみる
 – 回帰問題
 – 2クラス分類問題
 – 多クラス分類問題

• 4章でそれぞれに、誤差関数と出力ユニットの活性化
  関数に自然な組み合わせがあったことを議論した

• 特定の出力ユニットの活性に関して誤差関数の微分を
  求めよう(4章で求めてたけど)

• 計算はほとんど4.3.2(およびそこから参照されてい
  る演習問題)と同じ議論なので、計算過程は省略、、、
  したい
誤差関数とその微分を求める
• 結果
 – いずれの場合も、特定の出力ユニットの活性に関
   して誤差関数の微分は
  E
       yk  t k
  ak
  で与えられる

 – 4.3.6によると、これは「正準連結関数を活性化
   関数に選び、指数型分布族の中から目的変数に対
   する条件付き確立分布を選択することから得られ
   る一般的な結果」
もう一度まとめ
           出力ユニットの活性化             負の対数尤度に基づ                          誤差関数の特定の出
           関数                     く誤差関数                              力ユニットの活性に
                                                                     関する微分


回帰問題       恒等写像                   二乗和誤差関数
                                                                      E
           yk  ak
                                              N
                                  E(w)   y(xn , w)  t n 2
                                                                           yk  t k
                                              n1
                                                                      ak

2クラス分類問題   シグモイド関数                交差エントロピー誤
                     1
                                  差関数                                 E
                                                                           yk  t k
           yk                            N
                                 E(w)   
                                            t n ln yn          
                                                                     ak
                1  exp(ak )            n1 (  t n ) ln(  yn )
                                              1           1

多クラス分類問題   ソフトマックス関数              交差エントロピー誤
                                  差関数
                 exp(ak (x, w))                                       E
           yk 
                                         N N
                                 E(w)   t nk ln ynk
                                                                           yk  t k
                j
                  exp(aj (x, w))        n1 k 1
                                                                      ak
5.2.1 パラメータ最適化
パラメータ最適化
• 誤差関数の選び方は分かった。

• では、誤差関数E(w)を最小にする重みベ
  クトルwを見つける課題について考えよう。
誤差関数と極小点
• 誤差関数の重み空間上の幾何学的描写
        WXが誤差関数E(w)の最小値を与える

        WXは重み空間上の誤差関数の極小点

         ▽E(wx)=0を満たす(停留点)
誤差関数と極小点
• 一般に、重み空間上でE(w)上で勾配がゼ
  ロになる点は複数存在する。

• WAは局所的極小点

• WBは大局的極小点
誤差関数と極小点
• 十分良い解を見つけるためにはいくつか
  の極小点を比較する必要がある
極小点を見つける
• ▽E(w)=0の解析的な解を見つけるのはほ
  とんど無理。

• 数値的な反復手順を用いる

  (r 1 )
 w           w △w
              (r )   (r )


• 多くの場合、更新量△wには、勾配情報を
  利用する。
5.2.2 局所二次近似
局所二次近似
• 誤差関数の局所二次近似を考える
                          1
 E(w)  E(w)  (w  w) b  (w  w)T H(w  w)
          ˆ         ˆT
                                ˆ         ˆ
                          2
• 停留点w*においてb三▽E=0が成り立つ
  ので       1
    E(w)  E(w )  (w  w ) H(w  w )
         *    * T  *

                  2
局所二次近似
• w-w*をヘッセ行列Hの固有ベクトルの線
  形和に展開
                  1
    E(w)  E(w )   i i
              *           2

                  2 i
   (iはHの固有値)
• ここからHが正定値なら、右辺の第二項>
  0となり、E(w)>E(w*)より、w*は極小
  点になる
5.2.3 勾配情報の利用
誤差関数の極小点発見の計算量
• 勾配情報を利用することで、誤差関数の極小
  点を見つけるスピードは劇的に向上する。
• 勾配情報を利用しない場合
 – bとHの独立なパラメータの数はW(W+3)/2
 – 勾配情報を利用しないとしたらO(W^2)の点で関
   数を評価しなければいけない
 – それぞれの評価においてO(W)ステップが必要
 – 極小点はO(W^3)のステップで見つけることがで
   きる
誤差関数の極小点発見の計算量
• 勾配情報(=▽E)を利用する場合
 – ▽EにはW個の情報が含まれので、W回の勾
   配の評価で関数の極小点を見つけることが期
   待できる。
 – 誤差逆伝播法では、O(W)ステップで▽Eが評
   価できる。
 – 極小点はO(W^2)のステップで見つけること
   ができる
5.2.4 勾配降下最適化
最急降下法
• 勾配情報を用いて極小点を見つけるアプ
  ローチ
• 重み更新量を負の勾配方向への小さな変
  異に定める
 w   (r 1 )
                w w
                 (r )     (r )



• η>0は学習率パラメータ
バッチ訓練とオンライン訓練
• バッチ訓練
 – 重みベクトルの更新を訓練データ全体に対して行
   う
 – 最急降下法のような単純なアルゴリズムだと性能
   が悪い
• オンライン訓練
 – 重みベクトルの更新を1回ごとに1つのデータ点
   に基づいて行う
 – バッチ訓練と比べて十分に実用的
 – データの冗長度を効率的に扱える
 – 局所的極小値を回避できる(可能性がある)
疑問点(備忘録)
• 5.2.2 局所二次近似の章で説明している内
  容が全体の流れの中でどういう役割をも
  つか?
• 多変数関数の近似の難しさ
おしまい

More Related Content

PPTX
PRML Chapter 5
PDF
PRML 5章 PP.227-PP.247
PDF
PRML 5.3-5.4
PDF
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PDF
PRML輪読#5
PDF
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PPTX
W8PRML5.1-5.3
PDF
PRML Chapter5.2
PRML Chapter 5
PRML 5章 PP.227-PP.247
PRML 5.3-5.4
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML輪読#5
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
W8PRML5.1-5.3
PRML Chapter5.2

What's hot (20)

PDF
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PDF
PRML復々習レーン#9 前回までのあらすじ
PDF
PPTX
2014.02.20_5章ニューラルネットワーク
PDF
PRML輪読#4
PDF
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PDF
PRML Chapter 5 (5.0-5.4)
PDF
Prml4.4 ラプラス近似~ベイズロジスティック回帰
PPTX
2014.01.23 prml勉強会4.2確率的生成モデル
PPTX
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
PDF
PDF
PRML第3章@京大PRML輪講
PDF
Prml 3 3.3
PDF
PRML輪読#7
PDF
PRML輪読#9
PDF
PRML 第4章
PDF
PRML BNN 5.7 5.7.3
PPTX
KEY
prml4.1.3-4.1.4
PDF
PRML読書会#4資料+補足
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML復々習レーン#9 前回までのあらすじ
2014.02.20_5章ニューラルネットワーク
PRML輪読#4
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML Chapter 5 (5.0-5.4)
Prml4.4 ラプラス近似~ベイズロジスティック回帰
2014.01.23 prml勉強会4.2確率的生成モデル
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
PRML第3章@京大PRML輪講
Prml 3 3.3
PRML輪読#7
PRML輪読#9
PRML 第4章
PRML BNN 5.7 5.7.3
prml4.1.3-4.1.4
PRML読書会#4資料+補足
Ad

Similar to PRML chapter5 (20)

PDF
PRML復々習レーン#2 2.3.6 - 2.3.7
PDF
第9回名古屋Cvprml勉強会
PDF
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
PDF
Re revenge chap03-1
PDF
PRML復々習レーン#7 前回までのあらすじ
PDF
Infomation geometry(overview)
PDF
PRML復々習レーン#9 6.3-6.3.1
PDF
Chapter2.3.6
PPT
Master Thesis
PDF
生物統計特論3資料 2006 ギブス MCMC isseing333
ZIP
今さら聞けないカーネル法とサポートベクターマシン
PDF
Prml 4.3.6
PDF
Chapter1 4.6 mod
PDF
パターン認識と機械学習6章(カーネル法)
PDF
PRML_from5.1to5.3.1
PDF
Chapter9 2
PDF
PRML14.3 Boosting
PDF
PRML復々習レーン#3 3.1.3-3.1.5
PDF
ディジタル信号処理の課題解説
PDF
機械学習を用いたWeb上の産学連携関連文書の抽出
PRML復々習レーン#2 2.3.6 - 2.3.7
第9回名古屋Cvprml勉強会
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
Re revenge chap03-1
PRML復々習レーン#7 前回までのあらすじ
Infomation geometry(overview)
PRML復々習レーン#9 6.3-6.3.1
Chapter2.3.6
Master Thesis
生物統計特論3資料 2006 ギブス MCMC isseing333
今さら聞けないカーネル法とサポートベクターマシン
Prml 4.3.6
Chapter1 4.6 mod
パターン認識と機械学習6章(カーネル法)
PRML_from5.1to5.3.1
Chapter9 2
PRML14.3 Boosting
PRML復々習レーン#3 3.1.3-3.1.5
ディジタル信号処理の課題解説
機械学習を用いたWeb上の産学連携関連文書の抽出
Ad

More from Takahiro (Poly) Horikawa (8)

PDF
The Land of Oz 20191109 Magic Leap x docomo meetup
PDF
生命を記述する数学
PDF
エニグマ暗号とは何だったのか
PPTX
Android Wear Development
KEY
Android開発の基礎_20101218
PDF
加速度センサーで円運動を検出する
PPT
ESPer2008-FireMobileSimulatorについて
PPT
第10回Mozilla拡張機能勉強会-FireMobileSimulatorについて
The Land of Oz 20191109 Magic Leap x docomo meetup
生命を記述する数学
エニグマ暗号とは何だったのか
Android Wear Development
Android開発の基礎_20101218
加速度センサーで円運動を検出する
ESPer2008-FireMobileSimulatorについて
第10回Mozilla拡張機能勉強会-FireMobileSimulatorについて

PRML chapter5

  • 2. 4章の復習 • 4.3.2 ロジスティック回帰 – 2クラス分類 – 事後確率は特徴ベクトルの線形関数のロジス ティック・シグモイド関数として表せる。 p(C1 |  )  y( )   (w  ) T – 尤度の負の対数をとると、交差エントロピー 誤差関数を得られる。 N E(w)   t n ln yn  (1  t n )ln(1  yn ) n1
  • 3. 4章の復習 • 4.3.4 多クラスロジスティック回帰 – 多クラス分類 – 事後確率は特徴ベクトルの線形関数のソフト マックス関数として表せる exp(ak ) p(Ck |  )  yk ( )   j exp(aj ) ak  w k T – 尤度の負の対数をとると、以下の交差エント ロピー誤差関数を得られる。 N N E(w)   t nk ln ynk n1 k 1
  • 4. ニューラルネットワーク イントロ • 3章・4章で議論してきた基底関数の線形 和で表わされるモデルを、実際の問題に 適用していくためには、固定の基底関数 ではなく、基底関数をデータに適応させ る必要がある。 • 解決のアプローチとして、SVM(7章)と ニューラルネットワークがある。
  • 5. SVMとニューラルネットワーク • SVM – 訓練データ点を中心とした基底関数群をまず定義 し、その中の一部を訓練中に選ぶ – コンパクトではない(基底関数の数が多い) • ニューラルネットワーク – 事前に基底関数の数を固定し、それらに対してパ ラメトリック形を用い、そのパラメータ値を訓練 中に適応させる – コンパクト(新規のデータを素早く処理すること ができる)
  • 6. 5.1 フィードフォワード ネットワーク関数
  • 7. フィードフォワードネットワーク • 回帰・2クラス分類・多クラス分類、い ずれのパターンも特徴空間上の一般化線 形関数として表せた。 • さらに、特徴空間の基底関数 (x) をパラ メータ依存として、これらのパラメータ を訓練中に、調整することを考える。  • ニューラルネットワークにおいては、 (x) 自体が入力の線形和の非線形関数とする。
  • 8. フィードフォワードネットワーク 隠れユニット a(j1 )   w (1) xi ji z j  h(a j ) 出力ユニット ak2 )   w (1) z j ( kj yk   (ak )
  • 9. 関数近似特性 • 線形出力を持つ2層ネットワークは、十 分な数の隠れユニットがあれば、コンパ クトな定義域を持つどんな連続関数でも、 任意の精度で一様に近似できる。 • 以下、証明概略 – 参考文献 • 熊沢逸夫「学習とニューラルネットワーク」(森 北出版)
  • 10. 関数近似特性 - 証明概略 • 1変数関数の近似の場合 • まず、以下の関数Imulseを定義   Im pulse(x)  (x  )   (x  ) 2 2 Impulse(x)は0で急峻に立ち 上がる関数になる
  • 11. 関数近似特性 - 証明概略 • 任意の関数(*)はImpulse関数の線形和で 近似できる。 – f(x)のx    n における標本値f (  n) を求め f (  る。n) Im pulse(x    n) – を重みとして を加え N 合わせることで元の関数を近似できる。 f (x)   f (  n)  Im pulse(x   n) n 0 *有限の定義域を持つ二乗可積分とする
  • 12. 関数近似特性 - 証明概略 • Impulseの定義を代入すると N f (x)   wn   (x    n) n 0 wn  f (  n)  f (  (n  1)) • これは、N個の隠れユニットとシグモイド関 数を活性化関数にもつ、2層ニューラルネッ トワークで計算できる • つまり、任意の連続な1変数は2層ニューラ ルネットワークで、任意の精度で近似できる。
  • 13. 関数近似特性 - 証明概略 • 多変数関数の近似の場合 • フーリエ級数展開を用いる   2 2 2   an1 n2 nM sin  T n1 x1  T n2 x2      T nM xM    N1 N2 NM   1   f (x1 , x2 ,  xM )         2 M  n1 0 n2 0 nM 0   2 2 2     bn1 n2 nM cos T n1 x1  T n2 x2      T nM xM    1 2 M 
  • 14. 関数近似特性 - 証明概略 • また、1変数関数の場合、任意の精度で近 似できることが分かっているので、適当 なxの範囲で、sin(x),cos(x)を近似する ネットワークを構成することができる。 N sin(x)   s  (x  n) n  N n N cos(x)   c  (x  n) n  N n
  • 15. 関数近似特性 - 証明概略 • フーリエ級数展開に、sin(x),cos(x)のNN 展開を代入   2 2 2   an1 n2 nM sin  T n1 x1  T n2 x2      T nM xM    N1 N2 NM   1   f (x1 , x2 ,  xM )         2 M  n1 0 n2 0 nM 0   2 2 2     bn1 n2 nM cos T n1 x1  T n2 x2      T nM xM    1 2 M  f (x1 , x2 ,  xM )  N1 N2 NM N  2 2 2            wnn1 n2 nM   T n1 x1  n2 x2      nM xM  n   n1 0 n2 0 nM 0 n  N  1 T2 TM  ただし、 wnn1 n2 nM は整理後の係数
  • 16. 関数近似特性 - 証明概略 • 入力変数の線形和に対して、シグモイド 関数で活性化し、さらにその線形和を とっている⇒ニューラルネットワークで 計算可能 • つまり与えられた多変数関数を、任意の 精度で近似するニューラルネットワーク が存在する。
  • 18. 重み空間対称性 • 同じ入力から出力への関数を表わす重みベク トルwが複数選べる • 活性化関数が奇関数ならば、重みパラメータ の符号を反転させても同じ出力となる。 (2^Mの等価な重みベクトル) • ある隠れユニットに入る重みパラメータと、 別の隠れユニットに入る重みパラメータを丸 ごと入れ替えても同じ出力となる。(M!の等 価な重みベクトル)
  • 20. ネットワーク訓練 • ネットワークパラメータ(重みパラメー タとバイアスパラメータ)の決定問題へ のアプローチを考える。 • 単純なアプローチは、1.1節と同様、二乗 和誤差関数を最小化することだけど、、
  • 21. 二乗和誤差と決めてかからずに 確率的な解釈 • はじめに確率的な解釈しておくと後が楽。 • 尤度を最大化する重みは何か?
  • 22. 誤差関数とその微分を求める • 4章ですでにいろいろなモデルの確率的解 釈を行ってきた。 • 負の対数尤度から誤差関数を求めよう。
  • 23. 誤差関数とその微分を求める • それぞれ見てみる – 回帰問題 – 2クラス分類問題 – 多クラス分類問題 • 4章でそれぞれに、誤差関数と出力ユニットの活性化 関数に自然な組み合わせがあったことを議論した • 特定の出力ユニットの活性に関して誤差関数の微分を 求めよう(4章で求めてたけど) • 計算はほとんど4.3.2(およびそこから参照されてい る演習問題)と同じ議論なので、計算過程は省略、、、 したい
  • 24. 誤差関数とその微分を求める • 結果 – いずれの場合も、特定の出力ユニットの活性に関 して誤差関数の微分は E  yk  t k ak で与えられる – 4.3.6によると、これは「正準連結関数を活性化 関数に選び、指数型分布族の中から目的変数に対 する条件付き確立分布を選択することから得られ る一般的な結果」
  • 25. もう一度まとめ 出力ユニットの活性化 負の対数尤度に基づ 誤差関数の特定の出 関数 く誤差関数 力ユニットの活性に 関する微分 回帰問題 恒等写像 二乗和誤差関数 E yk  ak N E(w)   y(xn , w)  t n 2  yk  t k n1 ak 2クラス分類問題 シグモイド関数 交差エントロピー誤 1 差関数 E  yk  t k yk  N E(w)    t n ln yn    ak 1  exp(ak ) n1 (  t n ) ln(  yn ) 1 1 多クラス分類問題 ソフトマックス関数 交差エントロピー誤 差関数 exp(ak (x, w)) E yk  N N E(w)   t nk ln ynk  yk  t k j exp(aj (x, w)) n1 k 1 ak
  • 28. 誤差関数と極小点 • 誤差関数の重み空間上の幾何学的描写 WXが誤差関数E(w)の最小値を与える WXは重み空間上の誤差関数の極小点 ▽E(wx)=0を満たす(停留点)
  • 29. 誤差関数と極小点 • 一般に、重み空間上でE(w)上で勾配がゼ ロになる点は複数存在する。 • WAは局所的極小点 • WBは大局的極小点
  • 31. 極小点を見つける • ▽E(w)=0の解析的な解を見つけるのはほ とんど無理。 • 数値的な反復手順を用いる (r 1 ) w  w △w (r ) (r ) • 多くの場合、更新量△wには、勾配情報を 利用する。
  • 33. 局所二次近似 • 誤差関数の局所二次近似を考える 1 E(w)  E(w)  (w  w) b  (w  w)T H(w  w) ˆ ˆT ˆ ˆ 2 • 停留点w*においてb三▽E=0が成り立つ ので 1 E(w)  E(w )  (w  w ) H(w  w ) * * T * 2
  • 34. 局所二次近似 • w-w*をヘッセ行列Hの固有ベクトルの線 形和に展開 1 E(w)  E(w )   i i * 2 2 i (iはHの固有値) • ここからHが正定値なら、右辺の第二項> 0となり、E(w)>E(w*)より、w*は極小 点になる
  • 36. 誤差関数の極小点発見の計算量 • 勾配情報を利用することで、誤差関数の極小 点を見つけるスピードは劇的に向上する。 • 勾配情報を利用しない場合 – bとHの独立なパラメータの数はW(W+3)/2 – 勾配情報を利用しないとしたらO(W^2)の点で関 数を評価しなければいけない – それぞれの評価においてO(W)ステップが必要 – 極小点はO(W^3)のステップで見つけることがで きる
  • 37. 誤差関数の極小点発見の計算量 • 勾配情報(=▽E)を利用する場合 – ▽EにはW個の情報が含まれので、W回の勾 配の評価で関数の極小点を見つけることが期 待できる。 – 誤差逆伝播法では、O(W)ステップで▽Eが評 価できる。 – 極小点はO(W^2)のステップで見つけること ができる
  • 39. 最急降下法 • 勾配情報を用いて極小点を見つけるアプ ローチ • 重み更新量を負の勾配方向への小さな変 異に定める w (r 1 )  w w (r ) (r ) • η>0は学習率パラメータ
  • 40. バッチ訓練とオンライン訓練 • バッチ訓練 – 重みベクトルの更新を訓練データ全体に対して行 う – 最急降下法のような単純なアルゴリズムだと性能 が悪い • オンライン訓練 – 重みベクトルの更新を1回ごとに1つのデータ点 に基づいて行う – バッチ訓練と比べて十分に実用的 – データの冗長度を効率的に扱える – 局所的極小値を回避できる(可能性がある)
  • 41. 疑問点(備忘録) • 5.2.2 局所二次近似の章で説明している内 容が全体の流れの中でどういう役割をも つか? • 多変数関数の近似の難しさ