[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

DEEP LEARNING JP
[DL Papers] GLIDE: Guided Language to Image Diffusion
for Generation and Editing
Xin Zhang, Matsuo Lab
http://deeplearning.jp/

書誌情報
● タイトル：
○ GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided
Diffusion Models(arxiv)
● 著者：Alex Nichol, Prafulla Dhariwal Aditya Ramesh et al. (OPENAI)
● 20 Dec 2021
● 概要
○ テキストからリアルな画像を生成するDiffusion Model
○ ２種類の条件付けの方法で、複数の工夫を取り入れた実装
○ 綺麗な画像の生成に成功し、小さめなモデルを公開した
2

DALL-E (dVAE) StyleCLIP (StyleGAN)
CLIP + Generative Model

画像生成でBigGANに勝った？！Diffusion Modelsについて
GANは主流だが、訓練時の安定性と生成画像の多様性に問題
- 多様性と忠実度はトレードオフであり、GANは多様性を犠牲にしているから忠実度が高い。
- それトレードオフをコントロールすることで、BigGANにFIDで勝った

４種類の画像生成タスクへのチャレンジ!拡散モデルPaletteについて
Diffusion Modelで色々できるようになってきた！
- 多くのタスクは結局Image-to-Imageの形式に落とせる
- Diffusion Modelはマルチタスクができる（タスク特化の学習しなくてもよい）

GLIDE: Text-Guided Diffusion Models

拡散モデル(DDPM)には、二つのプロセスがある
1. diffusion/forward process
a. 画像にガウスノイズを加え続けて、画像
を完全なノイズにする
2. reverse process
a. ガウスノイズを取り除いて、次のステッ
プの画像を生成していき、最終的に綺麗
な画像が得られる
モデル：ノイズを予測することを学習させる
- ノイズが予測するには、ノイズでないところを
認識する必要がある
- 生成する物体が理解できる
DDPM(Denoising Diffusion Probabilistic Models)

２種類のガイド方法を用いた
CLIP(Classifier) Guidance
- 分類モデルの損失勾配で重みづける
- CLIPの潜在空間での類似度を用いる
特徴：二つのモデルが必要だが、同時に学習する必
要はない。
- Diffusion Modelと別にClassifierを用意
して、Classifierの知識を利用して画像を生
成。
Guided Diffusion
(1)
Classifier-free guidance
- 2回のノイズ予測で条件付けを行う
- Captionで重みづける
特徴：一つのモデルで済むが、Diffusion Modelを
異なるGuidanceする時に再訓練が必要
- Diffusion Modelを学習する際に、
Guidanceを付けているため

Text-Conditional Diffusion Models
GLIDE
Fine-Tuning for classifier free guidance
Image Inpainting (Fine-tuning)
- Add 4 channels (RGB channels, a mask channel)
Noised CLIP models
- Trained Image Encoder with noised image at 64x64 resolution.

定量評価
- 忠実度（解像度）と多様性のトレードオフは
やはり存在する。
- Classifier-freeの方が精度が良さそう
- Diffusion Modelの方が(GAN,VAEより)本
物っぽく生成できる！？

Image Editing
凄すぎる・・・

SDEdit
Image Editing(with SDEdit model)

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

Safety Considerations & Limitations
Released small model trained on a
smaller, filtered dataset.
Fail to capture certain prompts which
describe highly unusual objects or
scenarios.

Impressions
- Video Generation系の研究に期待
- 絵が下手でも大丈夫
an oil painting of happy new year
an cartoon of Mount Fuji

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

More Related Content

What's hot (20)

Similar to [DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing (10)

More from Deep Learning JP (20)

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing