[DL輪読会]Efficient Video Generation on Complex Datasets

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Efficient Video Generation on Complex
Datasets”
Matsuo Lab, Ryo Okada

Outline
1. 書誌情報
2. 論文の概要
3. 背景・先行研究
4. 提案手法
5. 実験
6. まとめ
2

書誌情報
• タイトル
– Efficient Video Generation on Complex Datasets
• 著者：
– Aidan Clark, Jeff Donahue, Karen Simonyan（Deepmind）
3

概要
• 概要
– DVD-GANの提案
• DVD: Digital versatile discではなく
Dual Video Discriminatorの意味
– 高解像度（最大256 x 256）で、長い（最大
48フレーム/４秒くらい）の動画を生成可能
– Kinetics-600の動画予測タスクとUCF-101
の動画生成タスクでSOTA
• Contribution
– 高解像度（最大256 x 256）で、長い（最大
48フレーム）の動画を生成可能なDVD-GANの
提案
– UCF-101の動画生成とKinetics-600の動画
予測タスクにおけるSOTA
– ビデオ生成における新しいベンチマークとし 4

背景
• 動画生成と予測タスクの例
– 訓練データの分布に従って様々な動画も生成する（条件付けしない）
– ある動画をもとにコンテンツトランスファーやフレームごとのセグメンテー
ション、姿勢推定として利用する（強く条件付けする）
– クラスで条件付けした動画生成タスク / Class conditional video
synthesis
• 与えられたカテゴリのビデオを生成する
– 将来動画予測 / Future video prediction
• 与えられた最初のフレームから続くビデオを生成する
– いずれのタスクにもリアルな動画を生成したいモチベーションは共通する
5

背景
• 先行研究
– 物体の質感と時間的な流れの一貫性の分解するアプローチが多い
• MoCoGAN
– GでRNNを使用し系列性を考慮
– 画像の品質を判定するフレームごとのDと動きを判定するビデオ全体を処理するDを用意
• オプティカルフローの活用（GとD）
– その他以下のような計算量を下げる工夫を用いた研究が多い
• フレームのグループごと処理
• 異なる解像度ごとのサブバッチ単位で処理
6

DVD-GAN
7
工夫①
事前学習やOptical Flowを利用しない代
わりに計算量の大きなネットワークを使用
工夫②
それぞれのフレームの特徴をRNNにて系列で抽出し、self
attentionを通り、フレームごとResNetに入力。これによりそ
れぞれのフレーム内のピクセルが関連性を持って出力される。
工夫③
Separable self
Attention
工夫④
Dual Discriminator

Separable Self Attention
8
Self Attentionによって特徴
マップ上の大域的な情報を取り出
したいが、
self attentionは必要な計算
量とメモリサイズが大きい
Separable self attention
を導入
３つの並列なAttention層を用
意し、
それぞれ横幅（W）、縦幅(H)、
時間（T）に絞って計算すること
で計算量を削減
計算量：
(𝐻𝑊𝑇)2
計算量：
最大 𝐻2
𝑊𝑇, 𝐻𝑊2
𝑇, 𝐻𝑊𝑇2

Dual Discriminator
• ２つのDiscriminator
– 空間的Discriminator: 𝐷𝑠
• K個の解像度のフレームをランダムにサンプ
リングし、単一フレーム内の内容や構成を
識別する（今回はk=8を選択）
• 処理データ量：K x H x W
– 時間的Discriminator: 𝐷𝑡
• Dsでは識別されない、動きを生成するため
の学習信号を捉えたい。
• スケーリングのため、resolutionを落と
して扱いたい。空間的ダウンサンプリング
としてφ（2 x 2のAverage Pooling）を
動画全体に処理し、その出力をDtへ入力す
る。
• 処理データ量： T x H/2 x W/2
9

実験
• 計算機環境
– TPU v3 pods
– TF-Replicatorで並列処理
– 訓練時間12~96時間
• データセット
– Kinetics-600
• 10秒間のYouTube HDビデオクリッ
プ（元々human action
recognition用）
• 600のカテゴリ。
• 全部で約50万個のビデオ
– UCF-101
• より小さい13,320個の動画（human
actions）
10
• 実験タスク
– Class conditional video
synthesis
• クラスで条件付けした動画生成タスク
– Future video prediction
• 将来動画予測
– Dにおけるパラメータ検証
– フレーム補間の検証
• 評価指標
– 一般的な評価指標のISとFID

実験結果
11
• Kinetics-600における動画生成結果
• 本結果は今後の研究の指標となるベンチマークを提示
– 比較できる先行研究の結果はなく、本研究におけるContributionの１つ
• 全てのビデオは入力の際リサイズされるので、フレーム数が同じであれば
サイズが異なっても比較できる数字

実験結果
12
• UCF-101における動画生成
タスク
• SOTAを達成

• 12 frames of 64 x 64
– https://drive.google.com/file/d/1YJtaQgVDnt_r35xKghelgd4V8Po-Ueaz/view
• 12 frames of 256 x 256
– https://drive.google.com/file/d/1wagcMpBAnIfYSEgnOoAbEJoqmHTnrpcr/view
• 48 frame of 128 x 128
– https://drive.google.com/file/d/19kXShENC-7KC-VjkIR3GixcdLVgSGSW5/view
18

生成例
19
• サイズが小さい動画は質感も綺麗で、一貫性のある動画を生成でき
ている。サイズが大きくなると、一貫性の物体を生成するのはより
難しくなり乱れている。一方、背景は綺麗に見える
• フレームが異なっても今回kの値は固定で8にしているため、48フ
レームの方が12より解像度は高くならないはずだが、48でも高い解
像度で生成できているように見える

Dにおけるパラメータ検証
• 𝐷 𝑇におけるφ（Average
pooling）を変化
• FIDスコアはあまり変化しないが
ISはダウンサンプリングが大きく
なるにつれてスコアが劣化
20
• 𝐷𝑠におけるk（サンプリング個
数）を変化
• Kを大きくするといずれのスコア
も改善

フレーム補間
• フレーム補間
– 𝑧0と𝑧1の間を潜在ベクトルより補間する
– いずれの場合も比較的スムーズな動画を生成できているように見える
21

まとめ
• まとめ
– 高解像度（最大256 x 256）で、長い（最大48フレーム）の動画を生成可能な
DVD-GANの提案
– UCF-101の動画生成とKinetics-600の動画予測タスクにおけるSOTA
– ビデオ生成における新しいベンチマークとしてKinetic-600を確立
• 感想
– 単に高精細なものを生成する意識だけでなく、処理サイズを軽減する工夫に配
慮しなければならない領域
– 計算量の多い動画生成の分野においてself attentionをうまく活用すること
によって高精細な生成に成功
– これで動画生成ができた、と言うよりこの分野の方向性を示したような意味合
いが強い 22

[DL輪読会]Efficient Video Generation on Complex Datasets

More Related Content

What's hot (20)

Similar to [DL輪読会]Efficient Video Generation on Complex Datasets (20)

More from Deep Learning JP (20)

[DL輪読会]Efficient Video Generation on Complex Datasets