SlideShare a Scribd company logo
2017/8/19 CV @
CVPR2017
Global optimality in neural network training
•
•
•
•
•
•
•
•
•
Global optimality in neural network training
•
•
•
Shallow	or	Deep?
Good Bad
Local	minima
Global	minima
•
•
•
•
•
𝐿 𝜙 𝜃
𝑓 𝑤 = ' 𝐿 𝑦), 𝜙 𝑥); 𝑤
)
+ 𝜃 𝑤
•
•
•
𝑓 𝑾 = 𝐿 𝒀, 𝝓 𝑾 + 𝜃 𝑾
•
•
𝑓 𝛼𝑾 = 𝐿 𝒀, 𝛼3
𝝓 𝑾 + 𝛼3
𝜃 𝑾 ,			( 𝛼 > 0	)
•
• ℎ 𝛼𝑾 = 𝛼ℎ 𝑾 	
• ℎ 𝛼𝑾 = 𝛼3ℎ 𝑾 	
• 𝛼 > 0
•
•
Local	minima
0
W
f
•
• 𝒚 = 𝑾𝒙 𝑾 ∈ ℝ<=×<?
• 𝑾 𝛼 𝛼
•
•
𝒙
𝑾 𝟏
𝑾 𝟐
𝑾 𝟑 𝑾 𝟒
𝑾 𝟏
𝒙 𝑾 𝟐∘𝟏
𝒙 𝑾 𝟑∘𝟐∘𝟏
𝒙
𝑾 𝟒∘𝟑∘𝟐∘𝟏
𝒙
𝛼𝑾 𝟏
𝛼𝑾 𝟐
𝛼𝑾 𝟑
𝛼𝑾 𝟒
𝛼 𝟒
𝑾 𝟒∘𝟑∘𝟐∘𝟏
𝒙
𝛼𝑾 𝟏
𝒙 𝛼E
𝑾 𝟐∘𝟏
𝒙 𝛼F
𝑾 𝟑∘𝟐∘𝟏
𝒙
•
•
0
𝛼𝑤G
𝛼𝑤E
𝛼𝑤F
𝛼𝑧
max 𝛼𝑧, 0
max 𝛼𝑧G, 𝛼𝑧E, 𝛼𝑧F, 𝛼𝑧L
𝛼をそのまま通す
(正斉次性を崩す加
減算などが無い)
•
•
•
•
•
•
•
IN
Conv
+
ReLU
Conv
+
ReLU
Linear
Max
Pool
Out
𝛼𝑾 𝟏 𝛼𝑾 𝟐
𝛼𝑾 𝟑𝒙
𝜙 𝛼𝑾 = 𝛼𝑾 𝟑 𝑀𝑃 𝜑 𝛼𝑾 𝟐 ∗ 𝜑 𝛼𝑾 𝟏 ∗ 𝒙
= 𝛼F 𝑾 𝟑 𝑀𝑃 𝜑 𝑾 𝟐 ∗ 𝜑 𝑾 𝟏 ∗ 𝒙
= 𝛼F 𝜙 𝑾
•
•
•
𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏
Q
E
+ 𝑾 𝟐
Q
E
+ 𝑾 𝟑
Q
E
+ 𝑾 𝟒
Q
E
𝜃 𝛼𝑾 𝟏, 𝛼𝑾 𝟐, 𝛼𝑾 𝟑, 𝛼𝑾 𝟒 = 𝛼E 𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒
𝜙 𝛼𝑾 𝟏, 𝛼𝑾 𝟐, 𝛼𝑾 𝟑, 𝛼𝑾 𝟒 = 𝛼L 𝜙 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒
正斉次性を満たさないため、局所解を持つ
正則化項:
ネットワーク:
•
𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏 𝑾 𝟐 𝑾 𝟑 𝑾 𝟒
𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏
Q
L
+ 𝑾 𝟐
Q
L
+ 𝑾 𝟑
Q
L
+ 𝑾 𝟒
Q
L
or
𝜃 𝛼𝑾 = 𝛼R 𝜃 𝑾
𝜙 𝛼𝑾 = 𝛼R 𝜙 𝑾
•
•
•
•
•
•
≥
• 𝜖が微小になると、左辺が無視できる。
• ネットワークの次数が正則化項の次数より大きい
𝑝 > 𝑝V こととする
• 右辺は正則化項なのでW≠0のとき、ゼロより大きい
•
> 0
W=0から少しでもズレるとfの値は大きくなる
ネットワーク項の次数>正則化項の次数のとき、
W=0は局所解
•
•
•
•
•
サブネットワーク入りの局所解の一つが、サブネット
を削ったネットワークの大域最適になる(後述)
r個のネットワークを並列に接続
•
•
𝜱 𝛼𝑾 𝟏, … , 𝛼𝑾 𝑲 = ' 𝜙 𝛼𝑾 𝒓
G, … , 𝛼𝑾 𝒓
R

𝜣 𝛼𝑾G, … , 𝛼𝑾R = 𝛼R 𝜣 𝑾G, … , 𝑾L
= ∑ 𝛼R 𝜙 𝑾 𝒓
G, … , 𝑾 𝒓
R
 = 𝛼R 𝜱 𝑾G, … , 𝑾R
正則化項も同様に・・・
ネットワーク項の冗長化
•
• 𝜱 𝑿
𝑾
• 𝑾
• 𝑾
𝛀 𝝓,𝜽 𝑿 ≡ inf
𝒓∈ℕg
inf
𝑾 𝟏,…,𝑾 𝑲
' 𝜃 𝑾𝒊
𝟏
, …	, 𝑾𝒊
𝑲

)iG
,	
s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿
𝑾
𝜱
𝜱 = 𝑿(緑線)
中心に近づくほど 𝑾 が小さいものとする
𝜱 = 𝑿を満たす𝑾候補
正則化ロスが最も低い𝑾
𝛀 𝝓,𝜽 𝑿 ≡ inf
𝒓∈ℕg
inf
𝑾 𝟏,…,𝑾 𝑲
' 𝜃 𝑾𝒊
𝟏
, …	, 𝑾𝒊
𝑲

)iG
,	
s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿
𝑾 = 𝟎(赤線)
•
•
•
ただし、Ωはinf項のために直接評価で
きないので、このままでは解けない
𝛀 𝝓,𝜽 𝑿 ≡ inf
𝒓∈ℕg
inf
𝑾 𝟏,…,𝑾 𝑲
' 𝜃 𝑾𝒊
𝟏
, …	, 𝑾𝒊
𝑲

)iG
,	
s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿
min
n
𝐹 𝑿 ≡ 𝐿 𝒀, 𝑿 + 𝜆Ωr,s 𝑿
•
式変形
min
n
𝐹 𝑿 ≡ 𝐿 𝒀, 𝑿 + 𝜆Ωr,s 𝑿
𝐿 𝒀, 𝝓 𝑾 + 𝜆 ' 𝜃 𝑾𝒊
𝟏
, …	, 𝑾𝒊
𝑲

)iG
凸問題
•
•
•
W0
局所解を2つ持つ
W0
W1
重みパラメータゼロ(W1=0)
の面に偶然局所解があったとする
W0
W1
当然、サブネットを減らしW0だけにしも局所解
Global optimality in neural network training
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
1.適当な局所解Wを見つける
※十分な数のrがあれば𝛽が計算可能
2.∑ 𝛽) 𝜙 𝑾) = 0
)iG を満たす𝛽を計算する
3.𝑅) 𝛾 = 1 + 𝛾𝛽)
G x⁄
𝑊)として、 𝛾を0から1に動かす
4.その時の、𝑊 = 𝑅 1 も局所解であり、かつWの一つ
がゼロになっている!
※ 𝛾 =0の時、元々の局所解W
ただし min 𝛽) = −1)
•
•
•
•
•
•
•
•
•

More Related Content

PDF
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
PPTX
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
PPTX
20170819 CV勉強会 CVPR 2017
PDF
Annotating object instances with a polygon rnn
PDF
最近のSingle Shot系の物体検出のアーキテクチャまとめ
PDF
暗号技術の実装と数学
PDF
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
PDF
暗認本読書会13 advanced
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
20170819 CV勉強会 CVPR 2017
Annotating object instances with a polygon rnn
最近のSingle Shot系の物体検出のアーキテクチャまとめ
暗号技術の実装と数学
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
暗認本読書会13 advanced

Similar to Global optimality in neural network training (9)

PDF
ニューラル論文を読む前に
PDF
Dynamic Routing Between Capsules
PPTX
全体セミナー20180124 final
PDF
140628理論談話会
PPTX
PRML第6章「カーネル法」
PDF
“Sliding right into disaster”の紹介
PPTX
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
PDF
楕円曲線入門 トーラスと楕円曲線のつながり
PDF
PRML復々習レーン#9 6.3-6.3.1
ニューラル論文を読む前に
Dynamic Routing Between Capsules
全体セミナー20180124 final
140628理論談話会
PRML第6章「カーネル法」
“Sliding right into disaster”の紹介
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
楕円曲線入門 トーラスと楕円曲線のつながり
PRML復々習レーン#9 6.3-6.3.1
Ad

More from Fujimoto Keisuke (20)

PDF
A quantum computational approach to correspondence problems on point sets
PDF
F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Auto...
PDF
YOLACT real-time instance segmentation
PDF
Product Managerの役割、周辺ロールとの差異
PDF
ChainerRLで株売買を結構頑張ってみた(後編)
PDF
Temporal Cycle Consistency Learning
PDF
PDF
20190414 Point Cloud Reconstruction Survey
PDF
Chainer meetup 9
PDF
20180925 CV勉強会 SfM解説
PDF
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
PDF
LiDAR-SLAM チュートリアル資料
PDF
Stock trading using ChainerRL
PDF
Cold-Start Reinforcement Learning with Softmax Policy Gradient
PDF
Representation learning by learning to count
PDF
Dynamic Routing Between Capsules
PDF
Deep Learning Framework Comparison on CPU
PDF
ICCV2017一人読み会
PDF
CVPR2017 oral survey
PDF
Point net
A quantum computational approach to correspondence problems on point sets
F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Auto...
YOLACT real-time instance segmentation
Product Managerの役割、周辺ロールとの差異
ChainerRLで株売買を結構頑張ってみた(後編)
Temporal Cycle Consistency Learning
20190414 Point Cloud Reconstruction Survey
Chainer meetup 9
20180925 CV勉強会 SfM解説
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
LiDAR-SLAM チュートリアル資料
Stock trading using ChainerRL
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Representation learning by learning to count
Dynamic Routing Between Capsules
Deep Learning Framework Comparison on CPU
ICCV2017一人読み会
CVPR2017 oral survey
Point net
Ad

Global optimality in neural network training