Submit Search
Global optimality in neural network training
3 likes
2,215 views
Fujimoto Keisuke
CVPR2017のオーラル発表論文 Global optimality in neural network training
Technology
Related topics:
Deep Learning
Read more
1 of 40
Download now
Downloaded 27 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
More Related Content
PDF
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Yukiyoshi Sasao
PPTX
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku
PPTX
20170819 CV勉強会 CVPR 2017
issaymk2
PDF
Annotating object instances with a polygon rnn
Takanori Ogata
PDF
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida
PDF
暗号技術の実装と数学
MITSUNARI Shigeo
PDF
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
健児 青木
PDF
暗認本読書会13 advanced
MITSUNARI Shigeo
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Yukiyoshi Sasao
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku
20170819 CV勉強会 CVPR 2017
issaymk2
Annotating object instances with a polygon rnn
Takanori Ogata
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida
暗号技術の実装と数学
MITSUNARI Shigeo
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
健児 青木
暗認本読書会13 advanced
MITSUNARI Shigeo
Similar to Global optimality in neural network training
(9)
PDF
ニューラル論文を読む前に
Hayahide Yamagishi
PDF
Dynamic Routing Between Capsules
yukihiro domae
PPTX
全体セミナー20180124 final
Jiro Nishitoba
PDF
140628理論談話会
Daisuke Yoshino
PPTX
PRML第6章「カーネル法」
Keisuke Sugawara
PDF
“Sliding right into disaster”の紹介
MITSUNARI Shigeo
PPTX
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
dhigurashi
PDF
楕円曲線入門トーラスと楕円曲線のつながり
MITSUNARI Shigeo
PDF
PRML復々習レーン#9 6.3-6.3.1
sleepy_yoshi
ニューラル論文を読む前に
Hayahide Yamagishi
Dynamic Routing Between Capsules
yukihiro domae
全体セミナー20180124 final
Jiro Nishitoba
140628理論談話会
Daisuke Yoshino
PRML第6章「カーネル法」
Keisuke Sugawara
“Sliding right into disaster”の紹介
MITSUNARI Shigeo
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
dhigurashi
楕円曲線入門トーラスと楕円曲線のつながり
MITSUNARI Shigeo
PRML復々習レーン#9 6.3-6.3.1
sleepy_yoshi
Ad
More from Fujimoto Keisuke
(20)
PDF
A quantum computational approach to correspondence problems on point sets
Fujimoto Keisuke
PDF
F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Auto...
Fujimoto Keisuke
PDF
YOLACT real-time instance segmentation
Fujimoto Keisuke
PDF
Product Managerの役割、周辺ロールとの差異
Fujimoto Keisuke
PDF
ChainerRLで株売買を結構頑張ってみた(後編)
Fujimoto Keisuke
PDF
Temporal Cycle Consistency Learning
Fujimoto Keisuke
PDF
ML@Loft
Fujimoto Keisuke
PDF
20190414 Point Cloud Reconstruction Survey
Fujimoto Keisuke
PDF
Chainer meetup 9
Fujimoto Keisuke
PDF
20180925 CV勉強会 SfM解説
Fujimoto Keisuke
PDF
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Fujimoto Keisuke
PDF
LiDAR-SLAM チュートリアル資料
Fujimoto Keisuke
PDF
Stock trading using ChainerRL
Fujimoto Keisuke
PDF
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Fujimoto Keisuke
PDF
Representation learning by learning to count
Fujimoto Keisuke
PDF
Dynamic Routing Between Capsules
Fujimoto Keisuke
PDF
Deep Learning Framework Comparison on CPU
Fujimoto Keisuke
PDF
ICCV2017一人読み会
Fujimoto Keisuke
PDF
CVPR2017 oral survey
Fujimoto Keisuke
PDF
Point net
Fujimoto Keisuke
A quantum computational approach to correspondence problems on point sets
Fujimoto Keisuke
F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Auto...
Fujimoto Keisuke
YOLACT real-time instance segmentation
Fujimoto Keisuke
Product Managerの役割、周辺ロールとの差異
Fujimoto Keisuke
ChainerRLで株売買を結構頑張ってみた(後編)
Fujimoto Keisuke
Temporal Cycle Consistency Learning
Fujimoto Keisuke
ML@Loft
Fujimoto Keisuke
20190414 Point Cloud Reconstruction Survey
Fujimoto Keisuke
Chainer meetup 9
Fujimoto Keisuke
20180925 CV勉強会 SfM解説
Fujimoto Keisuke
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Fujimoto Keisuke
LiDAR-SLAM チュートリアル資料
Fujimoto Keisuke
Stock trading using ChainerRL
Fujimoto Keisuke
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Fujimoto Keisuke
Representation learning by learning to count
Fujimoto Keisuke
Dynamic Routing Between Capsules
Fujimoto Keisuke
Deep Learning Framework Comparison on CPU
Fujimoto Keisuke
ICCV2017一人読み会
Fujimoto Keisuke
CVPR2017 oral survey
Fujimoto Keisuke
Point net
Fujimoto Keisuke
Ad
Global optimality in neural network training
1.
2017/8/19 CV @ CVPR2017
3.
• • • • • • • • •
5.
• • • Shallow or Deep? Good Bad Local minima Global minima
6.
• • •
7.
•
8.
• 𝐿 𝜙 𝜃 𝑓
𝑤 = ' 𝐿 𝑦), 𝜙 𝑥); 𝑤 ) + 𝜃 𝑤 • • • 𝑓 𝑾 = 𝐿 𝒀, 𝝓 𝑾 + 𝜃 𝑾
9.
• • 𝑓 𝛼𝑾 =
𝐿 𝒀, 𝛼3 𝝓 𝑾 + 𝛼3 𝜃 𝑾 , ( 𝛼 > 0 )
10.
• • ℎ 𝛼𝑾
= 𝛼ℎ 𝑾 • ℎ 𝛼𝑾 = 𝛼3ℎ 𝑾 • 𝛼 > 0 • • Local minima 0 W f
11.
• • 𝒚 =
𝑾𝒙 𝑾 ∈ ℝ<=×<? • 𝑾 𝛼 𝛼 • • 𝒙 𝑾 𝟏 𝑾 𝟐 𝑾 𝟑 𝑾 𝟒 𝑾 𝟏 𝒙 𝑾 𝟐∘𝟏 𝒙 𝑾 𝟑∘𝟐∘𝟏 𝒙 𝑾 𝟒∘𝟑∘𝟐∘𝟏 𝒙 𝛼𝑾 𝟏 𝛼𝑾 𝟐 𝛼𝑾 𝟑 𝛼𝑾 𝟒 𝛼 𝟒 𝑾 𝟒∘𝟑∘𝟐∘𝟏 𝒙 𝛼𝑾 𝟏 𝒙 𝛼E 𝑾 𝟐∘𝟏 𝒙 𝛼F 𝑾 𝟑∘𝟐∘𝟏 𝒙
12.
• • 0 𝛼𝑤G 𝛼𝑤E 𝛼𝑤F 𝛼𝑧 max 𝛼𝑧, 0 max
𝛼𝑧G, 𝛼𝑧E, 𝛼𝑧F, 𝛼𝑧L 𝛼をそのまま通す (正斉次性を崩す加 減算などが無い)
13.
• • • • • • •
14.
IN Conv + ReLU Conv + ReLU Linear Max Pool Out 𝛼𝑾 𝟏 𝛼𝑾
𝟐 𝛼𝑾 𝟑𝒙 𝜙 𝛼𝑾 = 𝛼𝑾 𝟑 𝑀𝑃 𝜑 𝛼𝑾 𝟐 ∗ 𝜑 𝛼𝑾 𝟏 ∗ 𝒙 = 𝛼F 𝑾 𝟑 𝑀𝑃 𝜑 𝑾 𝟐 ∗ 𝜑 𝑾 𝟏 ∗ 𝒙 = 𝛼F 𝜙 𝑾
15.
• • • 𝜃 𝑾 𝟏,
𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏 Q E + 𝑾 𝟐 Q E + 𝑾 𝟑 Q E + 𝑾 𝟒 Q E 𝜃 𝛼𝑾 𝟏, 𝛼𝑾 𝟐, 𝛼𝑾 𝟑, 𝛼𝑾 𝟒 = 𝛼E 𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 𝜙 𝛼𝑾 𝟏, 𝛼𝑾 𝟐, 𝛼𝑾 𝟑, 𝛼𝑾 𝟒 = 𝛼L 𝜙 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 正斉次性を満たさないため、局所解を持つ 正則化項: ネットワーク:
16.
• 𝜃 𝑾 𝟏,
𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏 𝑾 𝟐 𝑾 𝟑 𝑾 𝟒 𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏 Q L + 𝑾 𝟐 Q L + 𝑾 𝟑 Q L + 𝑾 𝟒 Q L or 𝜃 𝛼𝑾 = 𝛼R 𝜃 𝑾 𝜙 𝛼𝑾 = 𝛼R 𝜙 𝑾
17.
• • • • •
18.
• ≥ • 𝜖が微小になると、左辺が無視できる。 • ネットワークの次数が正則化項の次数より大きい 𝑝
> 𝑝V こととする • 右辺は正則化項なのでW≠0のとき、ゼロより大きい
19.
• > 0 W=0から少しでもズレるとfの値は大きくなる ネットワーク項の次数>正則化項の次数のとき、 W=0は局所解
20.
• • •
21.
• • サブネットワーク入りの局所解の一つが、サブネット を削ったネットワークの大域最適になる(後述) r個のネットワークを並列に接続
22.
• • 𝜱 𝛼𝑾 𝟏,
… , 𝛼𝑾 𝑲 = ' 𝜙 𝛼𝑾 𝒓 G, … , 𝛼𝑾 𝒓 R 𝜣 𝛼𝑾G, … , 𝛼𝑾R = 𝛼R 𝜣 𝑾G, … , 𝑾L = ∑ 𝛼R 𝜙 𝑾 𝒓 G, … , 𝑾 𝒓 R = 𝛼R 𝜱 𝑾G, … , 𝑾R 正則化項も同様に・・・ ネットワーク項の冗長化
23.
• • 𝜱 𝑿 𝑾 •
𝑾 • 𝑾 𝛀 𝝓,𝜽 𝑿 ≡ inf 𝒓∈ℕg inf 𝑾 𝟏,…,𝑾 𝑲 ' 𝜃 𝑾𝒊 𝟏 , … , 𝑾𝒊 𝑲 )iG , s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿
24.
𝑾 𝜱 𝜱 = 𝑿(緑線) 中心に近づくほど
𝑾 が小さいものとする 𝜱 = 𝑿を満たす𝑾候補 正則化ロスが最も低い𝑾 𝛀 𝝓,𝜽 𝑿 ≡ inf 𝒓∈ℕg inf 𝑾 𝟏,…,𝑾 𝑲 ' 𝜃 𝑾𝒊 𝟏 , … , 𝑾𝒊 𝑲 )iG , s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿 𝑾 = 𝟎(赤線)
25.
• • • ただし、Ωはinf項のために直接評価で きないので、このままでは解けない 𝛀 𝝓,𝜽 𝑿
≡ inf 𝒓∈ℕg inf 𝑾 𝟏,…,𝑾 𝑲 ' 𝜃 𝑾𝒊 𝟏 , … , 𝑾𝒊 𝑲 )iG , s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿 min n 𝐹 𝑿 ≡ 𝐿 𝒀, 𝑿 + 𝜆Ωr,s 𝑿
26.
• 式変形 min n 𝐹 𝑿 ≡
𝐿 𝒀, 𝑿 + 𝜆Ωr,s 𝑿 𝐿 𝒀, 𝝓 𝑾 + 𝜆 ' 𝜃 𝑾𝒊 𝟏 , … , 𝑾𝒊 𝑲 )iG 凸問題
27.
• • •
28.
W0
29.
局所解を2つ持つ W0 W1
30.
重みパラメータゼロ(W1=0) の面に偶然局所解があったとする W0 W1
31.
当然、サブネットを減らしW0だけにしも局所解
33.
• • •
34.
• • • • •
35.
• • • • •
36.
• • •
37.
• • • • •
38.
1.適当な局所解Wを見つける ※十分な数のrがあれば𝛽が計算可能 2.∑ 𝛽) 𝜙
𝑾) = 0 )iG を満たす𝛽を計算する 3.𝑅) 𝛾 = 1 + 𝛾𝛽) G x⁄ 𝑊)として、 𝛾を0から1に動かす 4.その時の、𝑊 = 𝑅 1 も局所解であり、かつWの一つ がゼロになっている! ※ 𝛾 =0の時、元々の局所解W ただし min 𝛽) = −1)
39.
• • • •
40.
• • • • •
Download