Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient Problem

Image Source: people.idsia.ch

Image Source: Université Montréal

Image Source: recode.net

C
ŷ
C = ½(ŷ- y)2

y
X2
X1
W11,1
W11,2
W11,3
W12,1
W12,2
W12,3
W21,1
W22,1
W23,1

517
Time
517
517
517
517
Win
Wout
Wrec
Win
Wout
Wrec
Win
Wout
Wrec
Win
Wout
Wrec
Win
Wout
yt
εt
xtxt-1xt-2xt-3
Formula Source: Razvan Pascanu et al. (2013)
εt+1εt-1εt-2εt-3
Wrec ~ small
Wrec ~ large
Vanishing
Exploding
Wrec Wrec Wrec

Solutions:
1. Exploding Gradient
• Weight Initialization
• Echo State Networks
• Long Short-Term Memory Networks (LSTMs)
• Truncated Backpropagation
• Penalties
• Gradient Clipping
2. Vanishing Gradient

Untersuchungen zu dynamischen
neuronalen Netzen
By Sepp (Josef) Hochreiter (1991)
Link:
http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidh
uber.pdf
Additional Reading:

Learning Long-Term
Dependencies with Gradient
Descent is Difficult
By Yoshua Bengio et al. (1994)
Link:
http://www-dsi.ing.unifi.it/~paolo/ps/tnn-94-gradient.pdf
Additional Reading:

On the difficulty of training recurrent
neural networks
By Razvan Pascanu et al. (2013)
Link:
http://www.jmlr.org/proceedings/papers/v28/pascanu13.pdf
Additional Reading:

Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient Problem

More Related Content

What's hot (20)

More from Kirill Eremenko (20)

Recently uploaded (20)

Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient Problem