SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
StyleGAN-T: Unlocking the Power of GANs for Fast Large-
ScaleText-to-Image Synthesis
University ofTsukuba M1,Yuki Sato
2023/2/17
書誌情報
StyleGAN-T: Unlocking the Power of GANs for
Fast Large-Scale Text-to-Image Synthesis
Axel Sauer1,2, Tero Karras2, Samuli Laine2,
Andreas Geiger1,Timo Aila2,
1University of Tübingen, Tübingen AI Center 2NVIDIA
• 投稿先: arXiv(2023/01/23)
• プロジェクトページ: https://github.com/autonomousvision/stylegan-t
• 選定理由:
Ø StyleGANをText-to-Imageへ応用.
Ø Diffusion modelが主流となっているText-to-Imageタスクにおいて,GANの立ち位置を明確
化.
※出典が明記されていない限り図表は論文・プロジェクトページより引用
2
2023/2/17
概要
• 幅広い構造を含むデータを学習
可能なStyleGAN-XL[1]をベース
に,⼤規模なtext-to-Imageモデル
を構築,学習させた.
• StyleGAN-Tでは⾼速かつ⾼品質
な画像⽣成を実現した.
3
1. Sauer, Axel, Katja Schwarz, and Andreas Geiger. "Stylegan-xl: Scaling stylegan to large diverse datasets." ACM SIGGRAPH 2022
conference proceedings. 2022.
2023/2/17
背景: text-to-image におけるGAN
⼤規模で多様なドメインを含むImageNetでの学習を安定に⾏えるStyleGAN-
XLをベースとして,StyleGANの利点を活かしつつ,text-to-imageへ応⽤できな
いか.
4
2023/2/17
StyleGAN[2]に⾒られるGANは潜在空間を制御することで,⽣成画像を制御可能
であり,また,⾼速な画像⽣成が可能である.
GANのメリット
GANのデメリット
データ数が少なく,狭いドメインのデータセットでは⾼い精度を⽰すが,データ
数が急速に増加しているこのタスクでは安定した学習が難しい.
– テキストデータから画像を⽣成するtext-to-imageでは,Diffusion Model(DM)や
Autoregressive Model(ARM)が主流である.
2. arras, Tero, Samuli Laine, and Timo Aila. "A style-based generator architecture for generative adversarial networks." Proceedings of the
IEEE/CVF conference on computer vision and pattern recognition. 2019.
StyleGAN-XL
• StyleGANの⽣成画像を制御可能な設計がImageNetの
ような⼤規模で多様なデータセットで著しく性能が低
下するという問題に対処した.
• StyleGAN3[3]をベースとして以下の点を改良した.
1. 正則化の廃⽌
2. 潜在変数の低次元化(512→64), Projected GAN[4]の導⼊
3. 各クラスラベルの埋め込み表現の事前学習
4. 徐々に⽣成画像の解像度を上げるProgressive Growingの再
導⼊
5. Feature NetworkとしてCNNとViTの2つのネットワークを
使⽤
6. Classifier Guidance[5]の導⼊
5
2023/2/17
3. Karras, Tero, et al. "Alias-free generative adversarial networks." Advances in Neural Information Processing Systems 34 (2021): 852-863.
4. Sauer, Axel, et al. "Projected gans converge faster." Advances in Neural Information Processing Systems 34 (2021): 17480-17492.
5. Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing
Systems 34 (2021): 8780-8794.
StyleGAN-T
• StyleGAN-XLをベースにtext-to-Imageタスクへ拡張した.
6
2023/2/17
StyleGAN-T: Generator
• StyleGAN2のGeneratorをベースとする.
– StyleGAN3で導⼊された変形に対する等価性は
このタスクでは必要なく,計算コストが⼤きくな
るため.
• Residual blockを導⼊.
– ⼤規模データセットを学習できるように層を深
くした際の,学習の安定化のため.
• Layer scaleの導⼊.
– 深い層の学習を改善するため.
7
2023/2/17
StyleGAN-T: Generator
• CLIPから得られる特徴量𝑐!"#!を潜在変数𝑤
に直接concatする.
– 𝑐!"#!が⽣成画像のスタイルに⼤きく影響するた
め.
• ⽣成した各層のスタイル ̃
𝑠について,3つのベ
クトル ̃
𝑠$ , ̃
𝑠% , ̃
𝑠&に分解して,
𝑠 = ̃
𝑠$ ⊙ ̃
𝑠% + ̃
𝑠&として⼊⼒する.
– そのまま⼊⼒するより表現⼒が増加する(ポリノ
ミアルネットワーク[6],[7]で提案されている).
8
2023/2/17
6. Chrysos, Grigorios G., et al. "P-nets: Deep polynomial neural networks." Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2020.
7. Chrysos, Grigorios, Markos Georgopoulos, and Yannis Panagakis. "Conditional generation using polynomial expansions." Advances in
Neural Information Processing Systems 34 (2021): 28390-28404.
StyleGAN-T: Discriminator
• Discriminatorの⼊⼒に,微分可能な変換を適
⽤する.
• ⼊⼒が224%となるようにランダムクロップ.
• Feature Networkには,⾃⼰教師あり学習を
⽤いたDINOを⽤いる.
– ⾃⼰教師あり学習による事前学習は精度向上に
有効.
9
2023/2/17
𝑐!"#!
Generated Image
StyleGAN-T: text encoder
• Text encoderには事前学習済みのCLIP text
encoderを⽤いる.
• ⽣成画像をCLIP image encoderに通して得
られる𝑐()*+"と,𝑐!"#!の球⾯距離の2乗誤差
を損失として⽤いる.
𝐿$%&' = arccos((𝑐)*+," * 𝑐!"#!)
– ⼊⼒されたテキストと⽣成画像のキャプション
が近づくように制約をつける.
– 学習に⼤きな影響を与えるため,重み付けを⾏
う.(論⽂内では0.2)
• 実験より𝐿,-./が有効であるのは64%の解像
度までと確認されたため,⾼解像度では64%
にランダムクロップして適⽤.
10
2023/2/17
StyleGAN-T: 学習⽅法
• 2つの学習⽅法を⽤いる.
– Phase 1: Text encoderを固定して学習する.
– Phase 2: Generatorを固定して学習する.
• 実験では,phase1で64%の解像度まで学習を⾏い,その後phase2の学習を挟ん
で,phase1の学習を最後まで⾏う.
– phase1の事前学習で得られるGeneratorを⽤いることで,⽣成された低解像度画像にアーチ
ファクトが出ることを防ぐことが可能である.
– Phase2では,アーチファクトを発⽣させずに𝐿$%&'を⼤きくして学習が可能である.これにより,
画像の品質を保ったまま,text encoderの精度を改善可能である.
– Phase2が収束したのち,phase1を再開する.
2023/2/17 11
StyleGAN-T: truncation trick
• StyleGANでは,類似した画像ばかりを⽣成
することを防ぐために導⼊した.
• StyleGAN-Tでは,潜在変数𝑤について,𝑐!"#!
をconcatする前の潜在変数に基づいて,潜在
変数を変換した.
• 実験より,truncationによりスケーリングパ
ラメータ𝜓を⼩さくすると,CLIPスコアが⼤
きくなり,⼊⼒に忠実になるが,⽣成画像の多
様性が⼩さくなった.
2023/2/17 12
実験設定
• 学習には複数のデータセットを⽤い,合計25億個の画像とテキストのペアデータを
⽤いた.
• 学習時間の合計はStable Diffusion[8]の
$
0
程度に抑えられた.
2023/2/17 13
8. CompVis. Stable diffusion model card, 2022. https://github.com/CompVis/stable-diffusion/blob/main/Stable_Diffusion_v1_Model_Card.md
評価⽅法
• zero-shot MS COCOを⽤いた性能評価を⾏った.
– 64(, 256(の2つの解像度で評価した.
• 評価指標としてFIDとCLIP scoreを⽤いた.
– 学習で⽤いたCLIPとは異なるモデルでCLIP scoreを算出した.
2023/2/17 14
実験結果: ⽣成精度の評価
• 64%では最も良い精度であり,かつ⽣成
速度も速かった.
• 256%ではGANモデルの中では最も良
い精度だが,DMに劣る精度だった.
2023/2/17 15
実験結果: ⽣成画像の多様性と⼊⼒への忠実度
• truncationを⾏う事で,FID, CLIP
scoreの両⽅でSD-distilledを上回った.
– SD-distilledではサンプリングのステップ
数を増加,eDiff-Iではguidance scaleを増
加させることがtruncationにあたる.
– ⽣成速度について,eDiff-Iが32s,
SD-distilledが0.6sであったのに対
し,StyleGAN-Tは0.1sであった.
• Phase2でtext encoderを学習するこ
とで,FIDを⼤きく上昇させる事な
く,CLIP scoreを⼤幅に向上させるこ
とができていた.
2023/2/17 16
実験結果: 視覚評価
• 潜在変数を変化させた際,⽣成された
画像も滑らかに変化していた.
• 様々なスタイルの画像を⽣成可能で
あった.
2023/2/17 17
考察
• GANは低解像度画像における⼤規模text-to-image syntehsisにおいて,DM以上の
性能を持っていた.
• eDiff-Iが64% → 256%でFIDが減少したのに対し,StyleGAN-Tでは上昇してお
り,StyleGAN-Tの超解像モデルは性能が低かった.
– この差を,⻑時間の学習やモデルの拡張で埋めらるかは不明.
• DALL-E2[9]と同様に,オブジェクトの結合やテキストの⽣成は失敗した.
– CLIPよりも巨⼤な⾔語モデルを使⽤することで解決できると考えている.
2023/2/17 18
9. Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 (2022).
Future works
• 𝐿,-./によるアーチファクトが発⽣するため,⾼解像度の画像でCLIPを再学習する
などDiscriminatorの条件付けについて⾒直す必要がある.
• GANにおけるtruncationは,DMのguidanceと異なるため,truncationにかわる⼿法
を⾒つければ,改善の余地がある.
• モデルの巨⼤化と学習時間の増加による⾼解像度画像の⽣成精度向上.
2023/2/17 19
感想
• ⽣成精度はDMと⽐較して数値以上に劣っているよう
に⾒える.
– LDMと⽐較して潜在変数の次元が⾮常に⼩さく,上⼿く情報を
圧縮できていない.
• データセットのドメインを絞ってfine-tuningなどする
とどうなるか.
– 画像のドメインが絞られれば,必然的にテキストの表現も限ら
れるため,StyleGANが得意とする学習内容となる.
• 超解像モデルをLDMのようなDecoderにするとどうな
るか.
– LDMではテキストによる条件付けは潜在変数にしか⾏ってお
らず,Decoderによる⾼解像度化の処理には含まれていない.
2023/2/17 20

More Related Content

PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
近年のHierarchical Vision Transformer
PPTX
Transformerを雰囲気で理解する
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
【DL輪読会】Vision-Centric BEV Perception: A Survey
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
近年のHierarchical Vision Transformer
Transformerを雰囲気で理解する
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
モデルアーキテクチャ観点からのDeep Neural Network高速化
[DL輪読会]ICLR2020の分布外検知速報
【DL輪読会】Vision-Centric BEV Perception: A Survey

What's hot (20)

PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PPTX
モデルアーキテクチャ観点からの高速化2019
PPTX
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
PDF
Anomaly detection 系の論文を一言でまとめた
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
時系列予測にTransformerを使うのは有効か?
PPTX
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PDF
PRML学習者から入る深層生成モデル入門
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
StyleGAN解説 CVPR2019読み会@DeNA
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
モデルアーキテクチャ観点からの高速化2019
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
Anomaly detection 系の論文を一言でまとめた
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Pay Attention to MLPs (gMLP)
時系列予測にTransformerを使うのは有効か?
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
畳み込みニューラルネットワークの高精度化と高速化
【チュートリアル】コンピュータビジョンによる動画認識 v2
Transformerを多層にする際の勾配消失問題と解決法について
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PRML学習者から入る深層生成モデル入門
Ad

Similar to 【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis (20)

PPTX
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
PDF
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
PDF
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
PDF
Transformer 動向調査 in 画像認識(修正版)
PDF
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
PPTX
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
PDF
拡散する画像生成.pdf
PDF
[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)
PDF
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
PDF
20180622 munit multimodal unsupervised image-to-image translation
 
PDF
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
PPTX
CartoonGAN@名古屋CV・PRML勉強会 2018-06-23
PPTX
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
PDF
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
PPTX
Bridging between Vision and Language
PDF
敵対的生成ネットワーク(GAN)
PDF
Deep Learningの基礎と応用
PDF
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
PPTX
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
PDF
Deep learningの概要とドメインモデルの変遷
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Transformer 動向調査 in 画像認識(修正版)
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
拡散する画像生成.pdf
[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
20180622 munit multimodal unsupervised image-to-image translation
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
CartoonGAN@名古屋CV・PRML勉強会 2018-06-23
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Bridging between Vision and Language
敵対的生成ネットワーク(GAN)
Deep Learningの基礎と応用
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Deep learningの概要とドメインモデルの変遷
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis