SlideShare a Scribd company logo
DLゼミ
2018.08.28
発表者 M2 平間 友大
著者:Ziru Xu†, Yunbo Wang†, Mingsheng Long∗, and Jianmin Wang
所属:KLiss MOE, School of Software, Tsinghua University, China
National Engineering Laboratory for Big Data Software
Beijing Key Laboratory for Industrial Big Data System and Application
本発表の内容
・ビデオの次のフレームの予測手法(将来の予測)について
論文”PredCNN: Predictive Learning with Cascade Convolutions”の紹介
発表学会:IJCAI2018
論文URL:https://www.ijcai.org/proceedings/2018/0408.pdf
実装コード:https://github.com/xzr12/PredCNN
ビデオ予測技術と応用
利用例
・天気予測[Shi et al., 2015]
・交通流予測[Zhang et al., 2017]
・大気汚染予測
・車などの危険予測
[Zhang et al., 2017] Junbo Zhang, Yu Zheng, and Dekang Qi.
Deep spatiotemporal residual networks for citywide crowd flows prediction. In AAAI, pages 1655–1661, 2017.
[Wang et al., 2017] Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, and S Yu Philip. Predrnn:
Recurrent neural networks for predictive learning using spatiotemporal lstms. In Advances in Neural Information Processing Systems, pages 879–888, 2017.
[Shi et al., 2015] Xingjian Shi, Zhourong Chen, Hao Wang, Dit-Yan Yeung, Wai-Kin Wong, and Wang-chun Woo. Convolutional lstm network:
A machine learning approach for precipitation nowcasting. In NIPS, pages 802–810, 2015.
予測モデルが対応すべき課題
将来のオブジェクトの
・オーバーラップ
・形状の変化
・スケールの変化
ビデオ予測:現在までの時空間情報(画像データ)
から次のフレームを正確に予測する
→ 空間と時系列を表現する必要がある
従来研究の課題
CNNベースの予測モデル:空間特徴は抽出してくれるが、時系列は弱い
RCNNベースの予測モデル:2つの弱点がある
・構造が深くなる場合の勾配消失問題
・計算コストとメモリ使用量
→そこで、勾配消失問題と計算コストを改善し、他手法よりも高い予測精度
を実現する”PredCNN”を提案
CNN: Predictive Learning with Cascade Convolutio
提案手法:PredCNN(畳み込みビデオ予測モデル)
時間依存性を捉えるリカレントモデルを参考に、ゲート畳み込み演算を適用
したCMU(カスケード乗法ユニット)構造を提案、階層的に積む
PredCNN構造の例
・深いリカレント構造と比較して遠くのフレームとの関係を捕捉するまでの経路
を短くできる→勾配の消失問題を緩和
・すべてのフレームの計算が並列で行える→高速化
・階層を深くすることで受容野を拡大→入力に合わせて十分な表現力を得られる
PredCNN構造の例
階層構造を持つことのメリット
MU(Multiplicative Unit:乗法ユニット)
MU[Kalchbrenner et al。、2017]:
LSTMに似た構造を持つ、非リカレント畳み込み構造
MU自体には時系列の表現を学習する能力はないが、空間の特徴抽出能
力が優れている
σ:シグモイド活性化関数
*:畳み込み演算
⊙:要素ごとの乗算
W1〜W4およびb1〜b4:対応する畳み込みゲートの重みおよびバイアス
g1、g2、g3はそれぞれ、入力ゲート、忘却ゲート、出力ゲート
uは入力判断ゲートの役割を果たす
[Kalchbrenner et al., 2017] Nal Kalchbrenner, Aaron van den Oord, Karen Simonyan, Ivo Danihelka, Oriol Vinyals, Alex Graves, and Koray Kavukcuoglu. Video pixel networks. In ICML, 2017.
CMU(Cascade Multiplicative Unit:
カスケード乗法ユニット)
提案手法:CMU
空間と時間の変化を同時にモデリングする構造
前のフレーム 現在のフレーム
次のフレーム
:層lのフレームtにおける表現
重み共有
RMB(Residual Multiplicative Block:
残差乗法ブロック)
RMB[Kalchbrenner et al。、2017]:
MUを重ねてブロックにした構造を持つ
より空間の表現力を得るために深いネットワークにする際、
勾配消失問題が起きるのを緩和する
RMB自体には時系列の表現を学習する能力はない
[Kalchbrenner et al., 2017] Nal Kalchbrenner, Aaron van den Oord, Karen Simonyan, Ivo Danihelka, Oriol Vinyals, Alex Graves, and Koray Kavukcuoglu. Video pixel networks. In ICML, 2017.
PredCNNの構造
PredCNNは3つの構造を持つ
A:各フレームの特徴量を抽出するエンコーダ
B:CMUをブロックとして階層的に積み上げたカスケード構造
C:CMUの隠れた時空間表現を画素空間に戻して再構成するデコーダ
エンコーダとデコーダは複数のRMBで構成
高い精度が期待できる構造 メモリ使用量や学習速度の削減が期待できる構造
A
B
C
関連研究 拡張畳み込みレイヤー
拡張畳み込みレイヤー(the dilated convolution layers) [Yu and Koltun 2016]
各レイヤーが入力として使用できる領域を広げ、パラメータを増やさず学習できる
ある畳み込みレイヤーが ・Cチャンネル、h*wマップ
次の畳み込みレイヤーが ・C’チャンネル、h’*w’マップ
kh,w:マップの幅と高さ(奇数)
η(エータ):膨張係数(η=1の時、標準的なCNNになる。拡張する場合η>1にする)
b:バイアス
xu,v∈RCとyu,v∈RC‘:層の入力と出力の画素成分
Ws,t:C’-C行列
本研究では、1つのRMBに対して[1、2、4、8]の膨張率を用いた
実験
パラメータ
• 最適化手法:Adam
• 学習率:0.0001
• バッチサイズ:16
• エポック:100
• 損失関数:L2ノルム
• 畳み込み層のチャネル:64
評価手法
• MSE:平均二乗誤差
• RMSE:MSEの平方根
• MAE:平均絶対誤差
3つのデータセット”TaxiBJ”、”BikeNYC”、”Moving MNIST”を用いる
Deep Learningを用いた手法と、それ以外の従来手法を比較
比較手法
Deep Learningを用いた従来手法と比較
•DeepST :
群衆流量予測タスクに指定された様々な時間特性を考慮したDNNベースの時空間予測モデル
•ST-ResNet :
群遅延予測のために設計された残差構造を持つDeepSTの最新版
•VPN :
ConvLSTMをベースにした適切に設計された予測モデル
•PredNet :
特に1フレーム予測のために設計された効率的かつ効果的な方法
•PredRNN :
デュアルメモリLSTMと同時に、空間的外観と時間的変化をモデリングする最先端の反復構造
。
比較手法
Deep Learning以外の従来手法
• ARIMA:
Auto-Regressive Integrated Moving Average(自己回帰和分移動平均)
• SARIMA:
季節自己回帰和分移動平均、ARIMAに長期的な季節変動を取り入れた
• VAR:
Vector Auto-Regressive 全てのフローのペアワイズ相関を探索する
通常は多変量時系列分析で用いられる
実験:TaxiBJ
・TaxiBJ:
GPS軌道モニタから収集された群衆予測データセット
各フレームは30分ごとに北京のタクシーGPSから収集された32*32のグ
リッドマップ
・実験設定:
先行研究に従って学習19,778セット、テスト1,344セットに分割
1セットは時系列に5フレームあり、最初の4フレームを入力、次の4フ
レームを出力とする
エンコーダ:4つのRMB
デコーダー:6つのRMB
実験:TaxiBJ
PredCNNと従来手法の比較と
提案されたカスケード乗法単位(CMU)の有効性を評価
(1Conv2D/ 1Conv2D)
MUの代わりに通常のconv層に置き換えた
(1MU/ 1MU)
前フレームの特徴抽出を行うMUの数を削減
(2 untying MUs / 1MU)
重み共有をしない
実験:TaxiBJ
実験:TaxiBJ
手法別各予測先フレームのRMSE
手法別学習時間とメモリ使用量(100Epoch、同じデータセット)
実験:BikeNYC
・BikeNYC:
ニューヨークの自転車に取り付けられたGPSシステムで収集させた軌道データ
9月1日から30日の期間で、乗車時間、出発地と終了地点、時刻が記録されている
1フレームは1時間に1回、8*16のグリッドマップで表される
・実験設定 :
1日から20日を学習データ、21日から30日をテストデータに分割
前の4フレームを入力とし、次のフレームを予測する
エンコーダ:2つのRMB
デコーダー:3つのRMB
実験:BikeNYC
従来手法との比較
実験:Moving MNIST
・Moving MNIST:
1つのシーケンスは20フレームで構成されており、各フレームは64×64グリ
ッドの画像内でバウンスする2個の手書き数字を表す
・実験設定 :
入力に10フレーム、予測に10フレームを割り当てる。学習に1万、テスト
に5千のシーケンスに分割した。
エンコーダ:4つのRMB
デコーダー:6つのRMB
LSTMを用いた先行研究 http://www.cs.toronto.edu/~nitish/unsupervised_video/
実験:Moving MNIST
まとめ
・ビデオ予測のためのPredCNNを提案
・従来手法の課題であった勾配消失問題と学習時間、メモリ使用量を改善した
・従来手法より高い精度を示したことから、階層的カスケード構造がフレーム
間の依存関係をうまく捉えることができることを明らかにした
今後の展望
・GAN[Goodfellow et al., 2014] を用いて今回の予測モデルと
敵対的訓練を統合することで予測精度向上に繋がるか検証すべきである
[Goodfellow et al., 2014] Ian J. Goodfellow, Jean Pougetabadie, Mehdi Mirza, Bing Xu, David Warde- farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. NIPS, 3:2672–2680, 2014.

More Related Content

PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
[DL輪読会]相互情報量最大化による表現学習
最近のDeep Learning (NLP) 界隈におけるAttention事情
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
【メタサーベイ】基盤モデル / Foundation Models
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...

What's hot (20)

PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PDF
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
【DL輪読会】Mastering Diverse Domains through World Models
PDF
時系列問題に対するCNNの有用性検証
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PDF
「世界モデル」と関連研究について
PDF
ELBO型VAEのダメなところ
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PPTX
【DL輪読会】マルチモーダル 基盤モデル
PDF
生成モデルの Deep Learning
PDF
最適輸送の解き方
PDF
Layer Normalization@NIPS+読み会・関西
PPTX
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PPTX
Sliced Wasserstein距離と生成モデル
PPTX
A3C解説
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
【DL輪読会】Mastering Diverse Domains through World Models
時系列問題に対するCNNの有用性検証
[DL輪読会]MetaFormer is Actually What You Need for Vision
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
「世界モデル」と関連研究について
ELBO型VAEのダメなところ
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
【DL輪読会】マルチモーダル 基盤モデル
生成モデルの Deep Learning
最適輸送の解き方
Layer Normalization@NIPS+読み会・関西
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Sliced Wasserstein距離と生成モデル
A3C解説
Ad

Similar to PredCNN: Predictive Learning with Cascade Convolutions (20)

PDF
コンピュータビジョンの研究開発状況
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
PDF
Deep Learningと画像認識   ~歴史・理論・実践~
PDF
CVPR 2016 まとめ v1
PDF
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
PDF
大規模画像認識とその周辺
PDF
【2016.07】cvpaper.challenge2016
PDF
cvpaper.challenge@CVPR2015(Deep Neural Networks)
PDF
20150414seminar
PDF
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
PDF
cvpaper.challenge in CVPR2015 (PRMU2015年12月)
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
PDF
動画認識サーベイv1(メタサーベイ )
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
PDF
(2022年3月版)深層学習によるImage Classificaitonの発展
PDF
12. Diffusion Model の数学的基礎.pdf
PDF
ECCV2020 オーラル論文完全読破 (2/2)
PPTX
視覚と対話の融合研究
コンピュータビジョンの研究開発状況
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
Deep Learningと画像認識   ~歴史・理論・実践~
CVPR 2016 まとめ v1
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
大規模画像認識とその周辺
【2016.07】cvpaper.challenge2016
cvpaper.challenge@CVPR2015(Deep Neural Networks)
20150414seminar
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
cvpaper.challenge in CVPR2015 (PRMU2015年12月)
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
【チュートリアル】コンピュータビジョンによる動画認識 v2
動画認識サーベイv1(メタサーベイ )
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
(2022年3月版)深層学習によるImage Classificaitonの発展
12. Diffusion Model の数学的基礎.pdf
ECCV2020 オーラル論文完全読破 (2/2)
視覚と対話の融合研究
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone

PredCNN: Predictive Learning with Cascade Convolutions

Editor's Notes

  • #11: 1つの2DレイヤがCチャネルのh×wマップであり、次のレイヤがC 'チャネルのh'×w ‘マップである場合、拡張された畳み込み演算子は ここでkwとkhはそれぞれカーネルの幅と高さ(奇数)、ηは膨張係数、xu、v∈RCとyu、v∈RC 'は層の入力と出力の画素成分、σ (・)は成分ごとの非線形伝達関数であり、Ws、tはカーネルのC'-C行列、b∈RC'は層バイアスベクトルである。 η= 1の場合、方程式は標準コンボリューション演算になります。