Recurrent neural networks (rnn) and long short term memory networks (lstm)

𝑿𝑡
RNN
𝑾𝒙
𝑾𝒚
𝑰𝒏𝒑𝒖𝒕
𝑶𝒖𝒕𝒑𝒖𝒕
𝑌𝑡
𝑾𝒔

𝑿1
𝑾𝒙
𝑰𝒏𝒑𝒖𝒕 𝑿2
𝑺0
𝑾𝒔
𝑾𝒙

𝑿1
𝑡𝑎𝑛ℎ(𝑊
𝑠𝑆0+
𝑊
𝑥𝑋1)
𝑾𝒙
𝑺1
𝑺0
𝑾𝒔
𝑾𝒙

𝑿1
𝑠𝑆0+
𝑊
𝑥𝑋1)
𝑾𝒙
𝑾𝒚
𝑺1
𝑺0
𝑾𝒔
𝑾𝒙
𝒀1

𝑿1
𝑠𝑆0+
𝑊
𝑥𝑋1)
𝑾𝒙
𝑾𝒚
𝑾𝒔
𝑿2
𝑠𝑆1+
𝑊
𝑥𝑋2)
𝑺1
𝑺0
𝑾𝒔
𝑾𝒙
𝒀1

𝑿1
𝑠𝑆0+
𝑊
𝑥𝑋1)
𝑾𝒙
𝑾𝒚
𝑾𝒔
𝑿2
𝑠𝑆1+
𝑊
𝑥𝑋2)
𝑺1
𝑺0 𝑺2
𝑾𝒔
𝑾𝒙
𝒀1 𝒀2
𝑾𝒚

𝑿1
𝑠𝑆0+
𝑊
𝑥𝑋1)
𝑾𝒙
𝑾𝒚
𝑾𝒔
𝑿2
𝑠𝑆1+
𝑊
𝑥𝑋2)
𝑺1
𝑺0 𝑺2
𝑾𝒔
𝑾𝒙
𝒀1 𝒀2
𝑾𝒚
𝑠ℎ0+
𝑊′𝑦𝑌1)
𝑠ℎ1+
𝑊′𝑦𝑌2)
𝒉1 𝒉2
𝒉0
𝑾′𝒚 𝑾′𝒚
𝑾𝒉 𝑾𝒉

𝑿1
𝑅𝑁𝑁
0.01
𝑅𝑁𝑁
𝑿2
𝑅𝑁𝑁
𝑿𝑛
0.01
0.01 0.01 0.01
𝑌 𝐿𝑂𝑆𝑆
Update Weights
100 time steps

𝑿1
𝑅𝑁𝑁
0.01
𝑅𝑁𝑁
𝑿2
𝑅𝑁𝑁
𝑿𝑛
0.01
0.01 0.01 0.01
𝑌 𝐿𝑂𝑆𝑆
Update Weights
100 time steps
Update in weight =
(𝟎. 𝟎𝟏)𝟏𝟎𝟎 ≈ 0

𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙

𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ
𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ 𝑖𝑡
𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ
tanh
𝑖𝑡
𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ
tanh Ĉ𝑡
𝑖𝑡
∗
𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ
σ
tanh Ĉ𝑡
𝑖𝑡
∗
𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ
σ
σ
tanh Ĉ𝑡
𝑜𝑡
𝑖𝑡
𝑓𝑡
∗
∗
𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ
σ
σ
tanh Ĉ𝑡
𝑜𝑡
𝑖𝑡
𝑓𝑡
∗
∗ + 𝐶1
𝒄0
𝑺0
𝑿2
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ
σ
σ
tanh Ĉ𝑡
𝑜𝑡
𝑖𝑡
𝑓𝑡
∗
∗ + 𝐶1
𝒄0
𝑺0
𝑿2
tanh
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

σ
σ
σ
tanh Ĉ𝑡
𝑜𝑡
𝑖𝑡
𝑓𝑡
∗
∗ + 𝐶1
𝒄0
𝑺0
𝑿2
tanh
∗
𝑾𝒌
𝑾𝒌𝒔
𝑾𝒌𝒙
𝑾𝒄
𝑾𝒐
𝑾𝒊
𝑾𝒇

More Related Content