SlideShare a Scribd company logo
2
Most read
9
Most read
10
Most read
DEEP LEARNING JP
[DL Papers] GLIDE: Guided Language to Image Diffusion
for Generation and Editing
Xin Zhang, Matsuo Lab
http://deeplearning.jp/
書誌情報
● タイトル:
○ GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided
Diffusion Models(arxiv)
● 著者:Alex Nichol, Prafulla Dhariwal Aditya Ramesh et al. (OPENAI)
● 20 Dec 2021
● 概要
○ テキストからリアルな画像を生成するDiffusion Model
○ 2種類の条件付けの方法で、複数の工夫を取り入れた実装
○ 綺麗な画像の生成に成功し、小さめなモデルを公開した
2
Introduction
DALL-E (dVAE) StyleCLIP (StyleGAN)
CLIP + Generative Model
画像生成でBigGANに勝った?!Diffusion Modelsについて
GANは主流だが、訓練時の安定性と生成画像の多様性に問題
- 多様性と忠実度はトレードオフであり、GANは多様性を犠牲にしているから忠実度が高い。
- それトレードオフをコントロールすることで、BigGANにFIDで勝った
4種類の画像生成タスクへのチャレンジ!拡散モデルPaletteについて
Diffusion Modelで色々できるようになってきた!
- 多くのタスクは結局Image-to-Imageの形式に落とせる
- Diffusion Modelはマルチタスクができる(タスク特化の学習しなくてもよい)
CLIP + Diffusion Model: GLIDE
GLIDE: Text-Guided Diffusion Models
拡散モデル(DDPM)には、二つのプロセスがある
1. diffusion/forward process
a. 画像にガウスノイズを加え続けて、画像
を完全なノイズにする
2. reverse process
a. ガウスノイズを取り除いて、次のステッ
プの画像を生成していき、最終的に綺麗
な画像が得られる
モデル:ノイズを予測することを学習させる
- ノイズが予測するには、ノイズでないところを
認識する必要がある
- 生成する物体が理解できる
DDPM(Denoising Diffusion Probabilistic Models)
2種類のガイド方法を用いた
CLIP(Classifier) Guidance
- 分類モデルの損失勾配で重みづける
- CLIPの潜在空間での類似度を用いる
特徴:二つのモデルが必要だが、同時に学習する必
要はない。
- Diffusion Modelと別にClassifierを用意
して、Classifierの知識を利用して画像を生
成。
Guided Diffusion
(1)
Classifier-free guidance
- 2回のノイズ予測で条件付けを行う
- Captionで重みづける
特徴:一つのモデルで済むが、Diffusion Modelを
異なるGuidanceする時に再訓練が必要
- Diffusion Modelを学習する際に、
Guidanceを付けているため
Text-Conditional Diffusion Models
GLIDE
Fine-Tuning for classifier free guidance
Image Inpainting (Fine-tuning)
- Add 4 channels (RGB channels, a mask channel)
Noised CLIP models
- Trained Image Encoder with noised image at 64x64 resolution.
Experiments
定量評価
- 忠実度(解像度)と多様性のトレードオフは
やはり存在する。
- Classifier-freeの方が精度が良さそう
- Diffusion Modelの方が(GAN,VAEより)本
物っぽく生成できる!?
Text to Image
Image Editing
Image Editing
凄すぎる・・・
SDEdit
Image Editing(with SDEdit model)
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
Conclusion
Safety Considerations & Limitations
Released small model trained on a
smaller, filtered dataset.
Fail to capture certain prompts which
describe highly unusual objects or
scenarios.
Impressions
- Video Generation系の研究に期待
- 絵が下手でも大丈夫
an oil painting of happy new year
an cartoon of Mount Fuji

More Related Content

PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
深層学習の数理
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
PDF
機械学習モデルの判断根拠の説明
PDF
グラフィカルモデル入門
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【メタサーベイ】基盤モデル / Foundation Models
深層学習の数理
ChatGPT 人間のフィードバックから強化学習した対話AI
機械学習モデルの判断根拠の説明
グラフィカルモデル入門
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?

What's hot (20)

PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
実装レベルで学ぶVQVAE
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
Statistical Semantic入門 ~分布仮説からword2vecまで~
PPTX
[DL輪読会]When Does Label Smoothing Help?
PDF
【メタサーベイ】Neural Fields
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PPTX
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PPTX
Curriculum Learning (関東CV勉強会)
PDF
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
PPTX
Transformerを雰囲気で理解する
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
実装レベルで学ぶVQVAE
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
[DL輪読会]相互情報量最大化による表現学習
Transformerを多層にする際の勾配消失問題と解決法について
Statistical Semantic入門 ~分布仮説からword2vecまで~
[DL輪読会]When Does Label Smoothing Help?
【メタサーベイ】Neural Fields
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【メタサーベイ】数式ドリブン教師あり学習
Neural networks for Graph Data NeurIPS2018読み会@PFN
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
モデルアーキテクチャ観点からのDeep Neural Network高速化
Curriculum Learning (関東CV勉強会)
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
Transformerを雰囲気で理解する
Ad

Similar to [DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing (10)

PDF
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
PDF
12. Diffusion Model の数学的基礎.pdf
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PDF
Vision and Language(メタサーベイ )
PDF
Deep learningの概要とドメインモデルの変遷
PPTX
Bridging between Vision and Language
PPTX
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
PDF
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
PDF
(2021年8月版)深層学習によるImage Classificaitonの発展
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
12. Diffusion Model の数学的基礎.pdf
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Vision and Language(メタサーベイ )
Deep learningの概要とドメインモデルの変遷
Bridging between Vision and Language
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
(2021年8月版)深層学習によるImage Classificaitonの発展
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing