SlideShare a Scribd company logo
Pattern Recognition and Machine Learning
5.2.1 – 5.3.3
新田 晃大 / 関西学院大学 理工学部 / http://www.akihironitta.com / 2018 年 3 月 7 日
2/41
本日の内容
p5.2 ネットワーク訓練
n5.2.1 パラメータ最適化
n5.2.2 局所二次近似
n5.2.3 勾配情報の利用
n5.2.4 勾配降下最適化
p5.3 誤差逆伝播
n5.3.1 誤差関数微分の評価
n5.3.2 単純な例
n5.3.3 逆伝播の効率
5.2.1 パラメータ最適化
pp. 237-238
4/41
パラメータ最適化(誤差関数最小化)
誤差関数 ( )E w
重み空間での変化 dw
誤差関数の変化
T
( )E Ed d= Ñw w
目標
誤差関数を最小にする w を見つける
現実
誤差関数は w に関して高い非線形
-> の点は数多い
図 5.5
( ) 0EÑ =w
5/41
最小点と極小点
を満たす点
Ø 極小点
Ø 極大点
Ø 鞍点
( )EÑ =w 0
重み空間には多数存在
最小点かどうかわからない
最小値に相当する極小点:大域的最小点
それ以外の極小点:局所的最小点
解析的な解 ほぼ無理 → 反復手順で近似解を求める
誤差関数は非線形性が高い
1) ( ) (( )t t t+
= + Dww w
6/41
連続な非線形関数の最適化
反復 回目の更新量
1) ( ) (( )t t t+
= + Dww w
( )t
Dwt
更新式
多くのアルゴリズムで,勾配情報を利用
どの方向にどれだけ進むか
5.2.2 局所二次近似
pp. 238-240
8/41
局所二次近似
の周りで誤差関数を二次近似
1) ( ) (( )t t t+
= + Dww w
ヘッセ行列(対称行列)
T T1
ˆ ˆ ˆ ˆ( ) ( ) ( ) ( ) ( )
2
E E + - + - -w w w w b w w H w w!
ˆ( ) ( )EÑ + -w b H w w!
勾配の局所近似
ˆw
( )
ˆ
ij
i j
E
E
w w
=
¶
º
º Ñ
¶ ¶
w w
b
H
図 2.7
(これならわかる最適化数学)
9/41
極小点で局所二次近似
極小点 の周りで誤差関数二次近似wÂ
T T1
( ) ( ) ( ) ( ) ( )
2
E E + - + - -w w w w b w w H w w   Â
!
i i il=Hu u
ヘッセ行列の固有方程式
T
i j ijd=u u
ヘッセ行列は対称行列であるから,固有ベクトルは完全正規直交系をなす
固有ベクトルの線形和に展開
i i
i
a- = åw w uÂ
{ }iu
10/41
極小点で局所二次近似
極小点 の周りで誤差関数二次近似wÂ
T
T
T
T
2
1
( ) ( ) ( ) ( )
2
1
( )
2
1
( )
2
1
( )
2
1
( )
2
i i j j
i j
i i j j
i j
i i j j j
i j
i i
i
E E
E
E
E
E
a a
a a
a a l
la
+ - -
æ öæ ö
= + ç ÷ç ÷
è ø è ø
æ ö
= + ç ÷
è ø
æ ö
= + ç ÷
è ø
= +
å å
å å
å å
å
w w w w H w w
w u H u
w u Hu
w u u
w
  Â
Â
Â
Â
Â
!
座標変換
p 原点を極小値に平行移動
p 各軸を固有ベクトルに合わせ回転
・・・(5.36)
( )T
= -α U w wÂ
T 2 2
1 1 n nla l aL = + +α α !
11/41
正定値
行列 H は正定値
p すべての に対して
p すべての固有値が正
( )T 2
1
T T
i
i
i
n
c
l
l
l
æ ö
ç ÷
= = =ç ÷
ç ÷
è ø
åv Hv Uc HUc c c!
¹v 0 T
0>v Hv
二次形式(係数行列 H)
正規直交系をなす固有ベクトル
{ }1 ,, nu u!
任意のベクトル v
i i
i
c= = åv Uc u
( )1 n=U u u!
直交行列
12/41
極小点か?
重み空間が1次元
重み空間がD次元
2
2
0
w
E
w
¶
>
¶ Â
0H !
停留点 ,w w Â
なら極小点
なら極小点
5.2.3 勾配情報の利用
p. 240
14/41
二次近似の独立要素数
ネットワーク中の適応パラメータの総数
(パラメータ w の次元)
( 3)
2
W W +
W
T T1
ˆ ˆ ˆ ˆ( ) ( ) ( ) ( ) ( )
2
E E + - + - -w w w w b w w H w w!
独立な要素数
2
2
W W
W
-
+
ある点での誤差関数の二次近似
W
2
( )O W
Ex. 5.13
a
b
c
æ ö
ç ÷
ç ÷
ç ÷
è ø
! "
! #
" #
W
W
15/41
計算量の話
二次近似の極小値を求めたい.
独立なパラメータ数 2
( )O Wb と H 求めればよい.
勾配情報利用しない.
• O(W2) 個の点で関数評価
• 関数評価(順伝播):O(W)
• 極小点見つける: O(W3)
勾配情報を利用する.
• 勾配を評価するごとに W 個の情報を得る
• O(W) 回の勾配の評価で極小点を見つけれることが期待
• 各勾配の評価(backprop)は O(W) ステップ
• 極小点見つける: O(W2)
5.2.4 勾配降下最適化
pp. 241-242
17/41
重み更新の手法
1) ( )( ( )
( )Et t t
h+
= - Ñ ww w
重みの更新(最急降下法)
学習率(learning rate)
0h >
各種手法
u勾配降下法(最急降下法)
• 単純
• 性能悪い
u共役勾配法(CG法)
• 要 ヘッセ行列
u(準)ニュートン法
• 2次収束
• 要 逆ヘッセ行列 <- 準では不要
u確率的(逐次的)勾配降下法(SGD)
• 勾配降下法のオンライン版
1 1 1
10 100 10000
® ®
共役勾配法
勾配降下法
ニュートン法
18/41
バッチサイズ
データセットのサイズ:N
バッチサイズ:𝑠𝑖𝑧𝑒
バッチ毎に重み更新
“いくつかのデータ点を1まとめにした中間的なシナリオ” => ミニバッチ学習
バッチ学習
Ø 𝑠𝑖𝑧𝑒 = 𝑁
Ø GD ミニバッチ学習
Ø 𝑠𝑖𝑧𝑒 = n < N
Ø SGD
オンライン学習
Ø 𝑠𝑖𝑧𝑒 = 1
Ø SGD
19/41
オンライン手法とバッチ手法
オンライン手法の利点
1. データの冗長度を効率的に扱える.
2. 極小値を回避できる可能性がある.
20/41
オンライン手法とバッチ手法
2
1 1
ˆ( ) ( ) 2 ( )
2 ( )
N N
n n
n n
E E E
E
= =
= =
=
å åw w w
w
オンライン手法の利点
1. データの冗長度を効率的に扱える.
2. 極小値を回避できる可能性がある.
例:データ点を複製し,サイズを倍に.
バッチ手法
同じ結果(計算量2倍になっただけ)
オンライン手法
同じ結果にはならない
…誤差関数
バッチ
オンライン
ミニバッチ
Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization (deeplearning.ai)
Week 2, Understanding mini-batch gradient descent
[https://www.coursera.org]
21/41
オンライン手法とバッチ手法
オンライン手法の利点
1. データの冗長度を効率的に扱える.
2. 極小値を回避できる可能性がある.
すべてのデータ集合に対する停留点は,
個々のデータに対しては一般に停留点ではないから.
バッチ
オンライン
ミニバッチ
5.3 誤差逆伝播
pp. 242-243
23/41
誤差逆伝播とは
昔からの目標
誤差をより小さくするような重みを求めること
→ 方法:誤差逆伝播(error backpropagation または単に backprop)
STAGE 1
重みに関する微分を評価
ここでの目標
フィードフォワードNNの誤差関数の勾配を効率よく求めること
STAGE 2
微分を用いて重み更新
1) ( )( ( )
( )Et t t
h+
= - Ñ ww w( )
( )E t
Ñ w
5.3.1 誤差関数微分の評価
pp. 243-246
25/41
誤差関数
誤差関数:各データに対応する誤差の和
1 2
1
( ) ( ) ( ) ( ) ( )
N
N n
n
E E E E E
=
= + + + = åw w w w w!
21
( )
2
n nk nk
k
E y t= -å
入力データ xn に対する誤差関数
オンライン手法 → そのまま使う
バッチ手法 → すべてのデータ点に対する勾配の和を取る
( , )nk k ny y= x w
の評価を考える.nEÑ
入力データ xn に対する予測値の第k要素
1) ( ) ( ) ( ) ( )
1 2
(
( ( ) ( ) ( ))NE E Et t t t t
h+
= - Ñ + Ñ + + Ñw w ww w!
1) ( ) )( (
( )nEt t t
h+
= - Ñ ww w
26/41
誤差関数の勾配(シンプルなモデル)
1x
Nx
ix
Ky
jy
1y
jiw
1iw
Kiw
k ki i
i
y w x= å
2
2 21 1 1
( ) ( ( , ) )
2 2 2
n nk nk k n nk ki i nk
k k k i
E y t y t w x t
æ öé ù
= - = - = -ç ÷ê ú
ë ûè ø
å å å åx w
誤差関数
勾配
( )n
nj nj ni
ji
E
y t x
w
¶
= -
¶ 誤差信号と入力の積
Kt
jt
1t
誤差信号
入力
出力は入力の線形和
27/41
正準連結関数と誤差関数 (4.3.6)
k k
k
E
y t
a
¶
= -
¶
k k
k
E
y t
a
¶
= -
¶
k k
k
E
y t
a
¶
= -
¶
Hanafusa さんのスライドより
28/41
順伝播(forward propagation)
j ji i
i
a w z= å
( )j jz h a=
各ユニットでの計算
いくつかは入力であり得る
いくつかは出力であり得る
順伝播
29/41
誤差逆伝播 1/3
n
j
j
E
a
d
¶
º
¶
jn n
j i
ji j ji
aE E
z
w a w
d
¶¶ ¶
= =
¶ ¶ ¶
j
i
ji
a
z
w
¶
=
¶
重みに関する微分(偏微分の連鎖法則)
誤差
j ji i
i
a w z= å重み wji に関する微分 = 誤差 x 入力側のユニットの値
出力活性化関数が
正準連結関数なら
メモ
n
k
k ky t
E
a
¶
= = -
¶
( )j jz h a=
30/41
誤差逆伝播 2/3
n n k
j
kj k j
E E a
a a a
d
¶ ¶ ¶
º =
¶ ¶ ¶
å
誤差
aj を変えると akを通して
En がどう変化するか
1
1
k
j k j
n n n
j
E E E
a
aa
a a a a
¶ ¶ ¶ ¶
= +
¶ ¶ ¶
+
¶
¶ ¶
!
連鎖法則
( )j j
z h a=
出力ユニットの入力からの影響の総和
1
1
n
j
a
a
E
a
¶ ¶
¶ ¶
k
k
n
j
a
a
E
a
¶ ¶
¶ ¶
aj を変えると a1を通して
En がどう変化するか
31/41
誤差逆伝播 3/3
逆伝播公式
n
j
j
E
a
d
¶
º
¶
( ) k
k
kj j jh a wd d¢= å
( )
( )
( )
n
j
j
n k
k k j
k ki i
k ij
k ki i
k ij
k kj j
k j
k kj j
k
E
a
E a
a a
w z
a
w h a
a
w h a
a
w h a
d
d
d
d
d
¶
º
¶
¶ ¶
=
¶ ¶
æ ö¶
= ç ÷ç ÷¶è ø
æ ö¶
= ç ÷ç ÷¶è ø
æ ö¶
= ç ÷ç ÷¶è ø
¢=
å
å å
å å
å
å
j ji i
i
a w z= å
( )j j
z h a=
…(5.56)
…(5.56)
…(5.49)
…(5.48)
…(5.51)
上流のユニットからの誤差
32/41
全体の誤差の微分
n
nji ji
EE
w w
¶¶
=
¶ ¶
å
すべてのパターンについての微分の和を取ることで得られる.
33/41
各ユニットが異なる活性化関数を持つ
逆伝播公式
( )j j kj k
k
h a wd d¢= å
どのレイヤーの,どのユニットに,どんな活性化関数を用いるかに注意すればよい.
34/41
誤差逆伝播 アルゴリズム
1. 適当にパラメータの初期値を設定する.
全てのユニットの出力を求める.(順伝播)
2. 全ての出力ユニットの誤差を求める.
3. 全ての隠れユニットの誤差を求める.(逆伝播公式)
4. 必要な微分を評価する.
jn n
j i
ji j ji
aE E
z
w a w
d
¶¶ ¶
= =
¶ ¶ ¶
( )j j kj k
k
h a wd d¢= å
正準連結関数なら
n
k k k
k
E
y t
a
d
¶
= = -
¶
5.3.2 単純な例
pp. 246-247
36/41
簡単な例
隠れユニットの活性化関数
( ) tanh( )
a a
a a
h a a
e e
e e
-
-
º
-
=
+
出力ユニットの活性化関数
k ky a=
2
( ) 1 ( )h a h a¢ = -
2
1
1
( )
2
K
n k k
k
E y t
=
= -å
二乗和誤差関数
37/41
順伝播と逆伝播
(1)
0
(2)
0
tanh( )
D
j ji i
i
j j
M
k kj j
j
a w x
z a
y w z
=
=
=
=
=
å
å
逆伝播
(1)
n
j i
ji
E
x
w
d
¶
=
¶
(2)
n
k j
kj
E
z
w
d
¶
=
¶
順伝播
k k ky td = -
2
1
(1 )
K
j j kj k
k
z wd d
=
= - å
第1層との重みに関する微分
第2層との重みに関する微分
5.3.3 逆伝播の効率
pp. 247-248
39/41
逆伝播の効率
ネットワークの重みとバイアスの総数 W
ある入力パターンに対し誤差関数を評価 ( )O W
活性化関数の評価は小さなオーバーヘッド
Ø たかだかユニット数のオーダ
Ø 一般に,ユニット数 << 重み数 W :1回の積演算,1回の和演算
:活性化関数の評価
順伝播に ( )O W
順伝播
40/41
逆伝播の代わり
前進差分
中心差分
( ) ( )
( )
n ji n jin
ji
E w E wE
O
w
+ -¶
= +
¶
Ú
Ú
Ú
2
( ) ( )
( )
2
n ji n jin
ji
E w E wE
O
w
+ - -¶
= +
¶
Ú Ú
Ú
Ú
→ 数値微分は,誤差逆伝播が正しく実装されているかのチェックに使う.
( )O W順伝播
回繰り返しW
数値微分
計算量
2
( )O W
誤差逆伝播
計算量 ( )O W
vs.
前進差分 中⼼差分
精度△ 精度◎
倍の計算
終わり

More Related Content

PDF
PRML輪読#5
PDF
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PDF
PRML 5.3-5.4
PDF
PRML 5章 PP.227-PP.247
PDF
PRML輪読#4
PDF
PRML復々習レーン#9 前回までのあらすじ
PDF
PRML上巻勉強会 at 東京大学 資料 第1章後半
PDF
PRML 第4章
PRML輪読#5
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML 5.3-5.4
PRML 5章 PP.227-PP.247
PRML輪読#4
PRML復々習レーン#9 前回までのあらすじ
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML 第4章

What's hot (20)

PDF
PRML輪読#6
PPTX
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
PDF
Prml 2.3
PDF
PPTX
PRML Chapter 5
PPTX
PDF
PRML輪読#7
PDF
PDF
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PDF
PRML輪読#3
KEY
prml4.1.3-4.1.4
PPTX
PRML 4.4-4.5.2 ラプラス近似
PPT
C:\D Drive\Prml\プレゼン\パターン認識と機械学習2 4章 D0703
PDF
PRML 6.1章 カーネル法と双対表現
PDF
パターン認識と機械学習6章(カーネル法)
PDF
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
PPTX
2014.02.20_5章ニューラルネットワーク
PDF
深層学習 勉強会第5回 ボルツマンマシン
PPTX
W8PRML5.1-5.3
PDF
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML輪読#6
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
Prml 2.3
PRML Chapter 5
PRML輪読#7
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PRML輪読#3
prml4.1.3-4.1.4
PRML 4.4-4.5.2 ラプラス近似
C:\D Drive\Prml\プレゼン\パターン認識と機械学習2 4章 D0703
PRML 6.1章 カーネル法と双対表現
パターン認識と機械学習6章(カーネル法)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
2014.02.20_5章ニューラルネットワーク
深層学習 勉強会第5回 ボルツマンマシン
W8PRML5.1-5.3
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
Ad

Similar to PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropagation) (20)

PDF
レポート1
PDF
Prml3.5 エビデンス近似〜
PPTX
ラビットチャレンジレポート 機械学習
PDF
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PPTX
PDF
ディジタル信号処理の課題解説 その3
PDF
Fourier transform
PPTX
An introduction to statistical learning 4 logistic regression manu
PDF
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
PDF
機械学習と深層学習の数理
PDF
ユニバーサルなベイズ測度について
PPTX
多次元信号処理の基礎と画像処理のための二次元変換技術
PDF
20170408cvsaisentan6 2 4.3-4.5
PDF
Casual learning machine learning with_excel_no6
PDF
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PDF
PRML Chapter5.2
PDF
NN, CNN, and Image Analysis
PDF
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
PPT
070 統計的推測 母集団と推定
PDF
Fisher Vectorによる画像認識
レポート1
Prml3.5 エビデンス近似〜
ラビットチャレンジレポート 機械学習
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
ディジタル信号処理の課題解説 その3
Fourier transform
An introduction to statistical learning 4 logistic regression manu
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
機械学習と深層学習の数理
ユニバーサルなベイズ測度について
多次元信号処理の基礎と画像処理のための二次元変換技術
20170408cvsaisentan6 2 4.3-4.5
Casual learning machine learning with_excel_no6
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML Chapter5.2
NN, CNN, and Image Analysis
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
070 統計的推測 母集団と推定
Fisher Vectorによる画像認識
Ad

More from Akihiro Nitta (7)

PDF
PRML 14.3-14.4 アンサンブル学習 (ブースティングとツリーメソッド) / Ensemble learning (boosting and t...
PDF
PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)
PDF
PRML 9-9.2.2 クラスタリング (K-means とガウス混合モデル) / Clustering (K-means and Gaussian M...
PDF
PRML 2.3.2-2.3.4 ガウス分布
PDF
PRML 1.5-1.5.5 決定理論
PDF
変分推論と Normalizing Flow
PDF
Variational Autoencoder (VAE) 解説
PRML 14.3-14.4 アンサンブル学習 (ブースティングとツリーメソッド) / Ensemble learning (boosting and t...
PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)
PRML 9-9.2.2 クラスタリング (K-means とガウス混合モデル) / Clustering (K-means and Gaussian M...
PRML 2.3.2-2.3.4 ガウス分布
PRML 1.5-1.5.5 決定理論
変分推論と Normalizing Flow
Variational Autoencoder (VAE) 解説

PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropagation)