SlideShare a Scribd company logo
5
Most read
8
Most read
14
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
StarGAN: Unified Generative Adversarial Networks for Multi-
Domain Image-to-ImageTranslation
Jun Hozumi, Matsuo Lab
書誌情報
• Submitted to arXiv on 24 Nov 2017
• Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun
Kim, and Jaegul Choo
– Korea University, Clova AI Research, NAVER, The College of New Jersey
and Hong Kong University of Science & Technology
• 異なる複数のドメインに画像を変換することができるGAN
• Twitterで一時期話題になった
• 発想自体はシンプル(CycleGANとACGANの組み合わせ)
2特に断りのない場合、本文内の図表は本論文より引用
何をした研究?
• 異なる複数のドメインに画像を変換することができるGANを提案
3
論文内での語法について
• 用語の使われ方に注意!
• 属属性性(attribute): それぞれの画像に固有の、意味のある特徴
– 髪の色(黒/茶/金/…)、性別(男/女/…)、感情(喜/怒/哀/…)など
– one-hotベクトルなどで表現される
• ドドメメイインン(domain): 同じ属性を持つ画像の組
– 金髪ドメイン、男性ドメイン、笑顔ドメインなど
– 1枚の画像が複数のドメインに属することも考えられる
4
参考: Cycle GAN
• 異なるドメインへ画像を双方向に変換するGAN
– 画像を1:1対応で持たせる必要がないのが画期的
5[Zhu+ 17] Unpaired image-to-image translation using cycle-consistent adversarial networks
参考: ACGAN
• クラス識別という補助タスクを追加することで品質を高めるGAN
– 高品質な画像はうまく分類もされるはず
6
(https://github.com/hwalsuklee/tensorflow-generative-model-collections より)
[Odena+ 16] Conditional Image SynthesisWith Auxiliary Classifier GANs
背景
• 1つの画像には複数の属性ラベルが付与されている
– CelebAデータセットだと「女性」「黒髪」など40種類もある
• 複数のドメインでも変換できるようにしたい!
– ついでに他の属性ラベルがついてる別のデータセットが使えるともっと良い
– たとえば本論文で用いるRaFDは「喜び」「怒り」など感情の属性がついている
• しかし、既存手法ではドメイン1:1対応での変換しかできない
– k個ドメインがある場合、k(k-1)のGeneratorを作成しなければならない
– 他のドメインにも共通している特徴を活かせない点ももったいない
7
提案: StarGAN
• その解決策として、下図(b)にあたるStarGANを提案
• 複数ドメインのデータを用いつつも、Generatorは1つだけでOK
– 画像と、ドメイン情報を含むラベルベクトルを取り込む
8
概要: StarGAN
• G(x, c) → y (cはドメインラベル)を複数のcで行えるように訓練する
• Discriminatorはソースとドメインラベル2つの確率分布を生成する
9
Loss1: Adversarial Loss
• StarGANでは3種類のLossを組み合わせた損失関数を用いる
– Adversarial Loss, Domain Classification Loss, Reconstruction Loss
• まず、通常のGANでも用いられるAdversarial Lossを課す
– Dsrc(x)は、Dによって与えられる情報ソース(Real/Fake)の確率分布
10
・Dはreal: xとfake: G(x,c)を正しく分類したい
・GはG(x, c)がrealであるとDに分類させたい
Loss2: Domain Classification Loss
• y = G(x, c)は、ドメインcに分類されなければならない
• Dに、ACGANでも用いられる補助分類器(auxiliary classifier)を追加して、
DとGにDomain Classification Loss を課す
– c’はxの元々のドメインラベル、Dcls(c’|x)はドメインラベルの確率分布
11
D側:
G側:
(c’にある)xを、正しくc’に分類したい
cに変換したxが、正しくcに分類されてほしい
Loss3: Reconstruction Loss
• ドメインと関連する部分のみが変換されるようにしたい
• Gに、CycleGANでも用いられるReconstruction Lossを課す
– L1ノルムでとる
12
(c’の)xをcへ変換して再度c’に戻したとき、元通りになってほしい
目的関数
• 最終的な目的関数は以下の通り
– λはハイパーパラメータで、λcls=1, λrec=10
• 実際はLadvをWGAN-GPの目的関数に変形する.λGP=10
13
Mask Vector
• 複数のデータセットを用いてデータ数を水増ししたいとき、各データセッ
トからはラベル情報を部分的にしか認識できない
– たとえば、感情に関するラベルはRaFDにはあるが、CelebAにはない
• そこでStarGANが特定のラベルを無視できるようMask Vector(m)を導入
– cはデータセットごとのラベルベクトル、nはデータセット(種類)数
• つまり、ドメインラベルは [[0,0,0,0], [1,0,1], [0,1]]のような形で与える
14
実例
15
• 論文で行った実験の場合(使用データセットはCelebA、RaFD)
– RaFDの場合についても同様に実行
実験
• CelebAによる生成画像のユーザ評価
• RaFDによる生成画像の分類精度
• 複数データセットを用いたときの生成画像の品質
16
実験1: CelebAによる生成画像のユーザ評価
• Amazon Mechanical Turk (146人)によって高評価を獲得
– “perceptual realism, quality of transfer in attribute(s), and preservation
of a figure’s original identity”という観点
17
実験2: RaFDによる生成画像の表情分類精度
• RaFDでResnet-18の表情分類器を学習し、生成した顔画像を分類させる
• StarGANが最も分類精度が高く、より現実的な変換ができていると言える
18
実験3: 複数データセットを用いたときの生成画像の品質
• RaFDのみを用いたモデル(SNG)と、RaFD+CelebAを用いたモデル(JNT)
で生成画像を見比べると、両方用いたモデルのほうが高品質になった
19
まとめ
• 異なる複数のドメインに画像を変換することができるStarGANを提案
– スケーラビリティが高い
– 汎化されるから既存手法に比べて高品質
– マスクベクトルを用いることでドメインラベルの制御が可能に
• 理論上どのようなドメインでも変換できるはずなので、今後の研究課題に
– Style Transferなど
– でもCycleGANと同様、今は形状が変わる場合は無理っぽい(馬を車になど)
20

More Related Content

PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PDF
実装レベルで学ぶVQVAE
PPTX
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
PDF
Layer Normalization@NIPS+読み会・関西
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
StyleGAN解説 CVPR2019読み会@DeNA
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
【チュートリアル】コンピュータビジョンによる動画認識
実装レベルで学ぶVQVAE
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Layer Normalization@NIPS+読み会・関西
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
三次元点群を取り扱うニューラルネットワークのサーベイ

What's hot (20)

PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
POMDP下での強化学習の基礎と応用
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
PPTX
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
PDF
変分推論と Normalizing Flow
PPTX
【DL輪読会】HexPlaneとK-Planes
PPTX
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PDF
Generating Diverse High-Fidelity Images with VQ-VAE-2
PPTX
Triplet Loss 徹底解説
PPTX
[DL輪読会]World Models
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PDF
動画認識サーベイv1(メタサーベイ )
PDF
Point net
PDF
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]相互情報量最大化による表現学習
POMDP下での強化学習の基礎と応用
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
変分推論と Normalizing Flow
【DL輪読会】HexPlaneとK-Planes
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Generating Diverse High-Fidelity Images with VQ-VAE-2
Triplet Loss 徹底解説
[DL輪読会]World Models
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
動画認識サーベイv1(メタサーベイ )
Point net
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Ad

Similar to [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation (20)

PDF
How good is my GAN?
PPTX
[DL輪読会]Image-to-Image Translation with Conditional Adversarial Networks
PDF
[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)
PPTX
[DL輪読会]Unsupervised Cross-Domain Image Generation
PDF
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
PPTX
画像認識 第9章 さらなる話題
PDF
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
PDF
[DL Hacks]Self-Attention Generative Adversarial Networks
PDF
Goodfellow先生おすすめのGAN論文6つを紹介
PPTX
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
PPTX
2017:10:20論文読み会"Image-to-Image Translation with Conditional Adversarial Netwo...
PDF
【ECCV 2018】GANimation: Anatomically-aware Facial Animation from a Single Image
PDF
20180622 munit multimodal unsupervised image-to-image translation
 
PDF
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
PDF
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
PPTX
CartoonGAN@名古屋CV・PRML勉強会 2018-06-23
PPTX
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
PPTX
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
PDF
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
PPTX
Bridging between Vision and Language
How good is my GAN?
[DL輪読会]Image-to-Image Translation with Conditional Adversarial Networks
[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)
[DL輪読会]Unsupervised Cross-Domain Image Generation
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
画像認識 第9章 さらなる話題
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
[DL Hacks]Self-Attention Generative Adversarial Networks
Goodfellow先生おすすめのGAN論文6つを紹介
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
2017:10:20論文読み会"Image-to-Image Translation with Conditional Adversarial Netwo...
【ECCV 2018】GANimation: Anatomically-aware Facial Animation from a Single Image
20180622 munit multimodal unsupervised image-to-image translation
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
CartoonGAN@名古屋CV・PRML勉強会 2018-06-23
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
Bridging between Vision and Language
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation