3. Introduction
The deeper the depth ,
the better the result.
Q : really?
Problem : degradation
(vanishing/exploding gradient)
Solution : Residual learning
4. Related Works
• Residual Representations
=> VLAD image recognition
• Shortcut Connection
=> Multi-layer perceptrons
7. Achitecture
Plain network
1. 동일한 output feature map size에 대해, layer는 동일한 수의
filter를 갖는다.
2. feature map size가 절반 인 경우, layer 당의 time
complexity를 보전하기 위해 filter의 수를 2배로 한다
Residual network
1.zero entry를 추가로 padding하여 dimension matching 후
identity mapping을 수행한다. (별도의 parameter가 추가되지
않음)
2. y = F(x, {Wi}) + Wsx의 projection shortcut을 dimension
matching에 사용한다.
8. Implementaion
• 각각의 conv layer와 activation 사이에는 batch
normalization을 사용하며, He initialization 기법으
로 weight를 초기화하여 모든 plain/residual nets을
학습한다.
• batch normalization에 근거해 dropout을 사용하지
않는다
• learning rate는 0.1에서 시작하여, error plateau 상
태마다 rate를 10으로 나누어 적용하며, decay는
0.0001, momentum은 0.9로 한 SGD를 사용했다.
• mini-batch size는 256로 했으며, iteration은 총
600K회 수행된다.