【論文読み会】Self-Attention Generative Adversarial Networks

1©2019 ARISE analytics
Self-Attention Generative
Adversarial Networks
2018/09/07
Yuya Kanemoto

概要
一言で言うと
すごい点
Self-attentionを用いて画像の大域的な依存関係を抽出
画像生成の性能指標が大幅に向上
 Inception Score (IS): 36.8 → 52.52
 Fréchet Inception distance (FID): 27.62 → 18.65
モチベーション GANの精度向上

Table of contents
• Background
• GAN
• Framework
• 1クラス画像生成の進展
• 多クラス画像生成の進展
• 評価基準
• Spectral normalization
• Self-attention
• 本論文

GAN framework
Goodfellow et al. 2014. Generative Adversarial Nets

3.5 Years of Progress on Faces
Goodfellow CVPR Tutorial 2018

SOTA on Faces: PG-GAN
Kerras et al. ICLR 2018. PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND
VARIATION

<2 Years of Progress on ImageNet
Goodfellow CVPR Tutorial 2018

多クラス画像生成の課題
• ImageNetのような多クラスの画像から学習する際、textureで判断される画像（e.g. 犬の体毛）は綺麗に
生成されやすいのに対して、geometryで判断される画像（e.g. 犬の足）を上手く生成するのは難しい
• CNNは局所的な受容野を持つため、大局的な依存関係は層を重ねることによってのみ考慮される
大局的な情報を得るためにCNNを多層にするのはコストがかかる
• → Self-attentionでcost-effectiveに大局的な依存関係を抽出（後述）
(FID)
Miyato et al. ICLR 2018. cGANs WITH PROJECTION DISCRIMINATOR

GANの評価基準
• Inception Score (IS)
GANによる生成画像が各クラスを上手く表現できていれば、学習済みモデル(Inception)による
生成画像の分類予測p(y|x)のエントロピーは小さい
GANによる生成画像のバリエーションが多ければモデル出力の分布p(y)のエントロピーは大きい
• Fréchet Inception distance (FID)
Inceptionモデルの特定の層にデータと生成画像からのサンプルを写像し、多変量ガウス分布とみ
なして平均・共分散を計算
それらを用いてFréchet距離を計算
ISに比べmode collapseをより的確に捉えることができる
Lucic et al. NeurIPS 2018. Are GANs Created Equal? A Large-Scale Study

Lipschitz連続
• GANの学習を安定させるにはLipschitz連続であることが重要であると最近の研究で議論されている
（e.g. Wasserstein GAN）
• ある写像fがLipschitz連続であるとき、実定数K(≥0)が存在して下式をみたす
• Lipschitz連続な写像fにおいて、下図のように常にその外側にグラフが存在する双錐が存在
• Wasserstein GANにおいては、ニューラルネットをLipschitz連続な写像にするためにweight
clippingを行った
Arjovsky et al. ICML 2017. Wasserstein Generative Adversarial Networks

Spectral Normalization
• 活性化関数のLipschitz normが1とすると、ニューラルネットのLipschitz normは各線形層の
Lipschitz normの積で表せる
• 定義より行列AのSpectral normは式(1)で表され、また行列Aの最大特異値に等しい
• 定義より式(2)のように、線形層g(h)=WhのLipschitz normは重み行列WのSpectral normに
等しい
• 式(3)の様に重みを正規化して各層にてLipschitz制約σ(W)=1を満たすことにより、ニューラルネッ
トfのLipschitz normを1以下に制御
(1)
(3)
Miyato et al. ICLR 2018. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS
(2)

Attention
• Source-target attention
• 機械翻訳において、Encoder-decoder networkではencoderの出力である固定長ベクトルを
decoderに入力として与えるため、長文の場合精度が悪かった
• Source(Key & Value)とTarget(Query)の関係性を同時に学習させ、文章入力のどこを重点的に処
理するかのAttention機構を取り入れることにより、長文に対しても精度が向上
• Self-attention
• Self-attentionにおいてはKey/Value/Queryが同一の場所(Self)、つまり直前の隠れ層から来る
• Self-attentionはある位置の出力を求めるのに下の隠れ層の全ての位置を参照でき、これは局所的な
位置しか参照できない畳み込み層より優れた利点である
Luong et al. 2015. Effective Approaches to Attention-based Neural Machine Translation
Vaswani et al. NIPS 2017. Attention Is All You Need

本論文

Self-attention on image
• Self-attention GAN(SAGAN)はself-attentionを用いてattention mapを学習することにより、大局的な
依存関係を推測する
• 各クエリ（色ドット）と対応するattention map（白色強度）の例が下図
Zhang et al. 2018. Self-Attention Generative Adversarial Networks

Self-attention mechanism
( )

Effect of spectral normalization
• Spectral Normalizationにより学習が安定
• Spectral Normalizationは元論文ではDiscriminatorのみに適用していたが、Generatorにも適用することでより安定
• Two-timescale update rule (TTUR)という、Generatorの学習率をDiscriminatorの学習率より小さくす
る手法により学習が高速化

Self-attention vs residual block
• Self-attentionという新たなブロックを加え層が深くなったことによる精度向上の可能性を検証するため、対照群
としてResidualブロックを加えたネットワークと比較
• SAGANがFID/ISいずれの指標でもベストスコア、より深い層にブロック挿入した方が高精度

Self-attention visualization
• Generator側のself-attentionを用いた最後の層のattention mapを可視化
• 鳥の尾や犬の足などの、畳み込みでは捉えづらい大局的な依存関係をattentionが捉えている

SOTA on class-conditional GAN
• 既存の多クラス画像生成手法と比較
• SOTAを達成、大幅に精度が向上

SAGAN-generated images

Summary
• Self-attentionを用いて大局的な依存関係を抽出
• Spectral normalizationをDiscriminator/Generator双方に適用することによりGAN学習を安定化
• TTURによりGAN学習を高速化
• 多クラス画像生成においてSOTAを達成、大幅に精度が向上

【論文読み会】Self-Attention Generative Adversarial Networks

More Related Content

What's hot (20)

Similar to 【論文読み会】Self-Attention Generative Adversarial Networks (20)

More from ARISE analytics (20)

Recently uploaded (10)

【論文読み会】Self-Attention Generative Adversarial Networks