SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Efficient Video Generation on Complex
Datasets”
Matsuo Lab, Ryo Okada
Outline
1. 書誌情報
2. 論文の概要
3. 背景・先行研究
4. 提案手法
5. 実験
6. まとめ
2
書誌情報
• タイトル
– Efficient Video Generation on Complex Datasets
• 著者:
– Aidan Clark, Jeff Donahue, Karen Simonyan(Deepmind)
3
概要
• 概要
– DVD-GANの提案
• DVD: Digital versatile discではなく
Dual Video Discriminatorの意味
– 高解像度(最大256 x 256)で、長い(最大
48フレーム/4秒くらい)の動画を生成可能
– Kinetics-600の動画予測タスクとUCF-101
の動画生成タスクでSOTA
• Contribution
– 高解像度(最大256 x 256)で、長い(最大
48フレーム)の動画を生成可能なDVD-GANの
提案
– UCF-101の動画生成とKinetics-600の動画
予測タスクにおけるSOTA
– ビデオ生成における新しいベンチマークとし 4
背景
• 動画生成と予測タスクの例
– 訓練データの分布に従って様々な動画も生成する(条件付けしない)
– ある動画をもとにコンテンツトランスファーやフレームごとのセグメンテー
ション、姿勢推定として利用する(強く条件付けする)
– クラスで条件付けした動画生成タスク / Class conditional video
synthesis
• 与えられたカテゴリのビデオを生成する
– 将来動画予測 / Future video prediction
• 与えられた最初のフレームから続くビデオを生成する
– いずれのタスクにもリアルな動画を生成したいモチベーションは共通する
5
背景
• 先行研究
– 物体の質感と時間的な流れの一貫性の分解するアプローチが多い
• MoCoGAN
– GでRNNを使用し系列性を考慮
– 画像の品質を判定するフレームごとのDと動きを判定するビデオ全体を処理するDを用意
• オプティカルフローの活用(GとD)
– その他以下のような計算量を下げる工夫を用いた研究が多い
• フレームのグループごと処理
• 異なる解像度ごとのサブバッチ単位で処理
6
DVD-GAN
7
工夫①
事前学習やOptical Flowを利用しない代
わりに計算量の大きなネットワークを使用
工夫②
それぞれのフレームの特徴をRNNにて系列で抽出し、self
attentionを通り、フレームごとResNetに入力。これによりそ
れぞれのフレーム内のピクセルが関連性を持って出力される。
工夫③
Separable self
Attention
工夫④
Dual Discriminator
Separable Self Attention
8
Self Attentionによって特徴
マップ上の大域的な情報を取り出
したいが、
self attentionは必要な計算
量とメモリサイズが大きい
Separable self attention
を導入
3つの並列なAttention層を用
意し、
それぞれ横幅(W)、縦幅(H)、
時間(T)に絞って計算すること
で計算量を削減
計算量:
(𝐻𝑊𝑇)2
計算量:
最大 𝐻2
𝑊𝑇, 𝐻𝑊2
𝑇, 𝐻𝑊𝑇2
Dual Discriminator
• 2つのDiscriminator
– 空間的Discriminator: 𝐷𝑠
• K個の解像度のフレームをランダムにサンプ
リングし、単一フレーム内の内容や構成を
識別する(今回はk=8を選択)
• 処理データ量:K x H x W
– 時間的Discriminator: 𝐷𝑡
• Dsでは識別されない、動きを生成するため
の学習信号を捉えたい。
• スケーリングのため、resolutionを落と
して扱いたい。空間的ダウンサンプリング
としてφ(2 x 2のAverage Pooling)を
動画全体に処理し、その出力をDtへ入力す
る。
• 処理データ量: T x H/2 x W/2
9
実験
• 計算機環境
– TPU v3 pods
– TF-Replicatorで並列処理
– 訓練時間12~96時間
• データセット
– Kinetics-600
• 10秒間のYouTube HDビデオクリッ
プ(元々human action
recognition用)
• 600のカテゴリ。
• 全部で約50万個のビデオ
– UCF-101
• より小さい13,320個の動画(human
actions)
10
• 実験タスク
– Class conditional video
synthesis
• クラスで条件付けした動画生成タスク
– Future video prediction
• 将来動画予測
– Dにおけるパラメータ検証
– フレーム補間の検証
• 評価指標
– 一般的な評価指標のISとFID
実験結果
11
• Kinetics-600における動画生成結果
• 本結果は今後の研究の指標となるベンチマークを提示
– 比較できる先行研究の結果はなく、本研究におけるContributionの1つ
• 全てのビデオは入力の際リサイズされるので、フレーム数が同じであれば
サイズが異なっても比較できる数字
実験結果
12
• UCF-101における動画生成
タスク
• SOTAを達成
生成例
13
生成例
14
64x64_12frame
15
256x256_12frame
16
128x128_48frame
17
• 12 frames of 64 x 64
– https://drive.google.com/file/d/1YJtaQgVDnt_r35xKghelgd4V8Po-Ueaz/view
• 12 frames of 256 x 256
– https://drive.google.com/file/d/1wagcMpBAnIfYSEgnOoAbEJoqmHTnrpcr/view
• 48 frame of 128 x 128
– https://drive.google.com/file/d/19kXShENC-7KC-VjkIR3GixcdLVgSGSW5/view
18
生成例
19
• サイズが小さい動画は質感も綺麗で、一貫性のある動画を生成でき
ている。サイズが大きくなると、一貫性の物体を生成するのはより
難しくなり乱れている。一方、背景は綺麗に見える
• フレームが異なっても今回kの値は固定で8にしているため、48フ
レームの方が12より解像度は高くならないはずだが、48でも高い解
像度で生成できているように見える
Dにおけるパラメータ検証
• 𝐷 𝑇におけるφ(Average
pooling)を変化
• FIDスコアはあまり変化しないが
ISはダウンサンプリングが大きく
なるにつれてスコアが劣化
20
• 𝐷𝑠におけるk(サンプリング個
数)を変化
• Kを大きくするといずれのスコア
も改善
フレーム補間
• フレーム補間
– 𝑧0と𝑧1の間を潜在ベクトルより補間する
– いずれの場合も比較的スムーズな動画を生成できているように見える
21
まとめ
• まとめ
– 高解像度(最大256 x 256)で、長い(最大48フレーム)の動画を生成可能な
DVD-GANの提案
– UCF-101の動画生成とKinetics-600の動画予測タスクにおけるSOTA
– ビデオ生成における新しいベンチマークとしてKinetic-600を確立
• 感想
– 単に高精細なものを生成する意識だけでなく、処理サイズを軽減する工夫に配
慮しなければならない領域
– 計算量の多い動画生成の分野においてself attentionをうまく活用すること
によって高精細な生成に成功
– これで動画生成ができた、と言うよりこの分野の方向性を示したような意味合
いが強い 22
THANK YOU.
23

More Related Content

PDF
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PPTX
[DL輪読会]Objects as Points
PPTX
【DL輪読会】HexPlaneとK-Planes
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
【DL輪読会】A Path Towards Autonomous Machine Intelligence
[DL輪読会]Objects as Points
【DL輪読会】HexPlaneとK-Planes
【メタサーベイ】数式ドリブン教師あり学習
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...

What's hot (20)

PDF
自己教師学習(Self-Supervised Learning)
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
PPTX
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
PDF
深層生成モデルと世界モデル(2020/11/20版)
PDF
CV分野におけるサーベイ方法
PDF
【メタサーベイ】Video Transformer
PDF
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attentio...
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
Semantic segmentation
PDF
最適輸送の解き方
PPTX
SfM Learner系単眼深度推定手法について
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PDF
深層学習によるHuman Pose Estimationの基礎
PPTX
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
PPTX
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
PDF
SSII2022 [OS2-01] イメージング最前線
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
自己教師学習(Self-Supervised Learning)
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
深層生成モデルと世界モデル(2020/11/20版)
CV分野におけるサーベイ方法
【メタサーベイ】Video Transformer
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attentio...
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Semantic segmentation
最適輸送の解き方
SfM Learner系単眼深度推定手法について
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
深層学習によるHuman Pose Estimationの基礎
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
SSII2022 [OS2-01] イメージング最前線
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
三次元点群を取り扱うニューラルネットワークのサーベイ
Ad

Similar to [DL輪読会]Efficient Video Generation on Complex Datasets (20)

PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
PPTX
【DL輪読会】Generating Long Videos of Dynamic Scenes
PDF
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
PDF
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
PDF
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
PDF
Generating Videos with Scene Dynamics
PDF
生成モデルの Deep Learning
PPTX
[DL輪読会]Flow-based Deep Generative Models
PDF
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
PDF
第1回NIPS読み会・関西発表資料 篠崎
PDF
第1回NIPS読み会・関西発表資料
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
PDF
Deep Learning技術の最近の動向とPreferred Networksの取り組み
PDF
Deep learningの概要とドメインモデルの変遷
PDF
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
PDF
Deep Learningの基礎と応用
PDF
Ibis2016okanohara
PDF
ディープラーニング最近の発展とビジネス応用への課題
PPTX
CartoonGAN@名古屋CV・PRML勉強会 2018-06-23
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
【DL輪読会】Generating Long Videos of Dynamic Scenes
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
Generating Videos with Scene Dynamics
生成モデルの Deep Learning
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
第1回NIPS読み会・関西発表資料 篠崎
第1回NIPS読み会・関西発表資料
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep learningの概要とドメインモデルの変遷
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
Deep Learningの基礎と応用
Ibis2016okanohara
ディープラーニング最近の発展とビジネス応用への課題
CartoonGAN@名古屋CV・PRML勉強会 2018-06-23
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Efficient Video Generation on Complex Datasets