PredCNN: Predictive Learning with Cascade Convolutions
1. DLゼミ
2018.08.28
発表者 M2 平間 友大
著者:Ziru Xu†, Yunbo Wang†, Mingsheng Long∗, and Jianmin Wang
所属:KLiss MOE, School of Software, Tsinghua University, China
National Engineering Laboratory for Big Data Software
Beijing Key Laboratory for Industrial Big Data System and Application
本発表の内容
・ビデオの次のフレームの予測手法(将来の予測)について
論文”PredCNN: Predictive Learning with Cascade Convolutions”の紹介
発表学会:IJCAI2018
論文URL:https://www.ijcai.org/proceedings/2018/0408.pdf
実装コード:https://github.com/xzr12/PredCNN
2. ビデオ予測技術と応用
利用例
・天気予測[Shi et al., 2015]
・交通流予測[Zhang et al., 2017]
・大気汚染予測
・車などの危険予測
[Zhang et al., 2017] Junbo Zhang, Yu Zheng, and Dekang Qi.
Deep spatiotemporal residual networks for citywide crowd flows prediction. In AAAI, pages 1655–1661, 2017.
[Wang et al., 2017] Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, and S Yu Philip. Predrnn:
Recurrent neural networks for predictive learning using spatiotemporal lstms. In Advances in Neural Information Processing Systems, pages 879–888, 2017.
[Shi et al., 2015] Xingjian Shi, Zhourong Chen, Hao Wang, Dit-Yan Yeung, Wai-Kin Wong, and Wang-chun Woo. Convolutional lstm network:
A machine learning approach for precipitation nowcasting. In NIPS, pages 802–810, 2015.
予測モデルが対応すべき課題
将来のオブジェクトの
・オーバーラップ
・形状の変化
・スケールの変化
ビデオ予測:現在までの時空間情報(画像データ)
から次のフレームを正確に予測する
→ 空間と時系列を表現する必要がある
6. MU(Multiplicative Unit:乗法ユニット)
MU[Kalchbrenner et al。、2017]:
LSTMに似た構造を持つ、非リカレント畳み込み構造
MU自体には時系列の表現を学習する能力はないが、空間の特徴抽出能
力が優れている
σ:シグモイド活性化関数
*:畳み込み演算
⊙:要素ごとの乗算
W1〜W4およびb1〜b4:対応する畳み込みゲートの重みおよびバイアス
g1、g2、g3はそれぞれ、入力ゲート、忘却ゲート、出力ゲート
uは入力判断ゲートの役割を果たす
[Kalchbrenner et al., 2017] Nal Kalchbrenner, Aaron van den Oord, Karen Simonyan, Ivo Danihelka, Oriol Vinyals, Alex Graves, and Koray Kavukcuoglu. Video pixel networks. In ICML, 2017.
8. RMB(Residual Multiplicative Block:
残差乗法ブロック)
RMB[Kalchbrenner et al。、2017]:
MUを重ねてブロックにした構造を持つ
より空間の表現力を得るために深いネットワークにする際、
勾配消失問題が起きるのを緩和する
RMB自体には時系列の表現を学習する能力はない
[Kalchbrenner et al., 2017] Nal Kalchbrenner, Aaron van den Oord, Karen Simonyan, Ivo Danihelka, Oriol Vinyals, Alex Graves, and Koray Kavukcuoglu. Video pixel networks. In ICML, 2017.