SlideShare a Scribd company logo
1©2019 ARISE analytics
Self-Attention Generative
Adversarial Networks
2018/09/07
Yuya Kanemoto
2©2019 ARISE analytics
概要
一言で言うと
すごい点
Self-attentionを用いて画像の大域的な依存関係を抽出
画像生成の性能指標が大幅に向上
 Inception Score (IS): 36.8 → 52.52
 Fréchet Inception distance (FID): 27.62 → 18.65
モチベーション GANの精度向上
3©2019 ARISE analytics
Table of contents
• Background
• GAN
• Framework
• 1クラス画像生成の進展
• 多クラス画像生成の進展
• 評価基準
• Spectral normalization
• Self-attention
• 本論文
4©2019 ARISE analytics
GAN framework
Goodfellow et al. 2014. Generative Adversarial Nets
5©2019 ARISE analytics
3.5 Years of Progress on Faces
Goodfellow CVPR Tutorial 2018
6©2019 ARISE analytics
SOTA on Faces: PG-GAN
Kerras et al. ICLR 2018. PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND
VARIATION
7©2019 ARISE analytics
<2 Years of Progress on ImageNet
Goodfellow CVPR Tutorial 2018
8©2019 ARISE analytics
多クラス画像生成の課題
• ImageNetのような多クラスの画像から学習する際、textureで判断される画像(e.g. 犬の体毛)は綺麗に
生成されやすいのに対して、geometryで判断される画像(e.g. 犬の足)を上手く生成するのは難しい
• CNNは局所的な受容野を持つため、大局的な依存関係は層を重ねることによってのみ考慮される
大局的な情報を得るためにCNNを多層にするのはコストがかかる
• → Self-attentionでcost-effectiveに大局的な依存関係を抽出(後述)
(FID)
Miyato et al. ICLR 2018. cGANs WITH PROJECTION DISCRIMINATOR
9©2019 ARISE analytics
GANの評価基準
• Inception Score (IS)
GANによる生成画像が各クラスを上手く表現できていれば、学習済みモデル(Inception)による
生成画像の分類予測p(y|x)のエントロピーは小さい
GANによる生成画像のバリエーションが多ければモデル出力の分布p(y)のエントロピーは大きい
• Fréchet Inception distance (FID)
Inceptionモデルの特定の層にデータと生成画像からのサンプルを写像し、多変量ガウス分布とみ
なして平均・共分散を計算
それらを用いてFréchet距離を計算
ISに比べmode collapseをより的確に捉えることができる
Lucic et al. NeurIPS 2018. Are GANs Created Equal? A Large-Scale Study
10©2019 ARISE analytics
Lipschitz連続
• GANの学習を安定させるにはLipschitz連続であることが重要であると最近の研究で議論されている
(e.g. Wasserstein GAN)
• ある写像fがLipschitz連続であるとき、実定数K(≥0)が存在して下式をみたす
• Lipschitz連続な写像fにおいて、下図のように常にその外側にグラフが存在する双錐が存在
• Wasserstein GANにおいては、ニューラルネットをLipschitz連続な写像にするためにweight
clippingを行った
Arjovsky et al. ICML 2017. Wasserstein Generative Adversarial Networks
11©2019 ARISE analytics
Spectral Normalization
• 活性化関数のLipschitz normが1とすると、ニューラルネットのLipschitz normは各線形層の
Lipschitz normの積で表せる
• 定義より行列AのSpectral normは式(1)で表され、また行列Aの最大特異値に等しい
• 定義より式(2)のように、線形層g(h)=WhのLipschitz normは重み行列WのSpectral normに
等しい
• 式(3)の様に重みを正規化して各層にてLipschitz制約σ(W)=1を満たすことにより、ニューラルネッ
トfのLipschitz normを1以下に制御
(1)
(3)
Miyato et al. ICLR 2018. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS
(2)
12©2019 ARISE analytics
Attention
• Source-target attention
• 機械翻訳において、Encoder-decoder networkではencoderの出力である固定長ベクトルを
decoderに入力として与えるため、長文の場合精度が悪かった
• Source(Key & Value)とTarget(Query)の関係性を同時に学習させ、文章入力のどこを重点的に処
理するかのAttention機構を取り入れることにより、長文に対しても精度が向上
• Self-attention
• Self-attentionにおいてはKey/Value/Queryが同一の場所(Self)、つまり直前の隠れ層から来る
• Self-attentionはある位置の出力を求めるのに下の隠れ層の全ての位置を参照でき、これは局所的な
位置しか参照できない畳み込み層より優れた利点である
Luong et al. 2015. Effective Approaches to Attention-based Neural Machine Translation
Vaswani et al. NIPS 2017. Attention Is All You Need
13©2019 ARISE analytics
本論文
14©2019 ARISE analytics
Self-attention on image
• Self-attention GAN(SAGAN)はself-attentionを用いてattention mapを学習することにより、大局的な
依存関係を推測する
• 各クエリ(色ドット)と対応するattention map(白色強度)の例が下図
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
15©2019 ARISE analytics
Self-attention mechanism
( )
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
16©2019 ARISE analytics
Self-attention mechanism
( )
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
17©2019 ARISE analytics
Effect of spectral normalization
• Spectral Normalizationにより学習が安定
• Spectral Normalizationは元論文ではDiscriminatorのみに適用していたが、Generatorにも適用することでより安定
• Two-timescale update rule (TTUR)という、Generatorの学習率をDiscriminatorの学習率より小さくす
る手法により学習が高速化
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
18©2019 ARISE analytics
Self-attention vs residual block
• Self-attentionという新たなブロックを加え層が深くなったことによる精度向上の可能性を検証するため、対照群
としてResidualブロックを加えたネットワークと比較
• SAGANがFID/ISいずれの指標でもベストスコア、より深い層にブロック挿入した方が高精度
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
19©2019 ARISE analytics
Self-attention visualization
• Generator側のself-attentionを用いた最後の層のattention mapを可視化
• 鳥の尾や犬の足などの、畳み込みでは捉えづらい大局的な依存関係をattentionが捉えている
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
20©2019 ARISE analytics
SOTA on class-conditional GAN
• 既存の多クラス画像生成手法と比較
• SOTAを達成、大幅に精度が向上
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
21©2019 ARISE analytics
SAGAN-generated images
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
22©2019 ARISE analytics
Summary
• Self-attentionを用いて大局的な依存関係を抽出
• Spectral normalizationをDiscriminator/Generator双方に適用することによりGAN学習を安定化
• TTURによりGAN学習を高速化
• 多クラス画像生成においてSOTAを達成、大幅に精度が向上
23©2019 ARISE analytics

More Related Content

PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
実装レベルで学ぶVQVAE
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
PPTX
[DL輪読会]Flow-based Deep Generative Models
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
実装レベルで学ぶVQVAE
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
【論文紹介】How Powerful are Graph Neural Networks?
Domain Adaptation 発展と動向まとめ(サーベイ資料)
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...

What's hot (20)

PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
点群深層学習 Meta-study
PDF
深層学習によるHuman Pose Estimationの基礎
PPTX
DNNの曖昧性に関する研究動向
PPTX
モデルアーキテクチャ観点からの高速化2019
PDF
GAN(と強化学習との関係)
PPTX
backbone としての timm 入門
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
Transformer メタサーベイ
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
Semantic segmentation
PDF
[DL輪読会]Ensemble Distribution Distillation
PDF
生成モデルの Deep Learning
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
[DL輪読会]ICLR2020の分布外検知速報
点群深層学習 Meta-study
深層学習によるHuman Pose Estimationの基礎
DNNの曖昧性に関する研究動向
モデルアーキテクチャ観点からの高速化2019
GAN(と強化学習との関係)
backbone としての timm 入門
【DL輪読会】ViT + Self Supervised Learningまとめ
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]Pay Attention to MLPs (gMLP)
三次元点群を取り扱うニューラルネットワークのサーベイ
Transformer メタサーベイ
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
畳み込みニューラルネットワークの高精度化と高速化
Semantic segmentation
[DL輪読会]Ensemble Distribution Distillation
生成モデルの Deep Learning
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Ad

Similar to 【論文読み会】Self-Attention Generative Adversarial Networks (20)

PPTX
Icml2018読み会_overview&GANs
PDF
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
MIRU_Preview_JSAI2019
PDF
クラウドがアプリケーションの価値を上げる
PDF
景観セミナー資料 (株)フジヤマ
PDF
何がって"DevQA" アジャイル開発とQAの合体が改善を生む
PDF
20190804_icml_kyoto
PPTX
Counterfaual Machine Learning(CFML)のサーベイ
PDF
サイトサーチアナリティクスとは
PDF
転生したらQAエンジニアが不在のスクラムチームでスクラムマスターをすることになった件 ~チームでアジャイル品質・アジャイルテスティングに向き合う肝はコミュ...
PDF
Generative Adversarial Networks (GAN) @ NIPS2017
PPTX
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
PDF
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
PDF
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
PDF
WebEffective overview 2012 japanese
PDF
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
PDF
Annotating object instances with a polygon rnn
PPTX
超高速な機械学習を Oracle Database で実現!
PDF
成功と失敗に学ぶアジャイル受託開発の極意
Icml2018読み会_overview&GANs
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
[DL輪読会]Deep Face Recognition: A Survey
MIRU_Preview_JSAI2019
クラウドがアプリケーションの価値を上げる
景観セミナー資料 (株)フジヤマ
何がって"DevQA" アジャイル開発とQAの合体が改善を生む
20190804_icml_kyoto
Counterfaual Machine Learning(CFML)のサーベイ
サイトサーチアナリティクスとは
転生したらQAエンジニアが不在のスクラムチームでスクラムマスターをすることになった件 ~チームでアジャイル品質・アジャイルテスティングに向き合う肝はコミュ...
Generative Adversarial Networks (GAN) @ NIPS2017
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
WebEffective overview 2012 japanese
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
Annotating object instances with a polygon rnn
超高速な機械学習を Oracle Database で実現!
成功と失敗に学ぶアジャイル受託開発の極意
Ad

More from ARISE analytics (20)

PDF
【JSAI2024】学術論文の定量的評価と効果的な活用について Quantitative evaluation and effective utiliza...
PDF
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
PDF
【JSAI2024】ブラックボックス大規模言語モデルにおけるHallucination検知手法の検討.pdf
PDF
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
PPTX
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
PPTX
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
PDF
めんどうな環境構築とはおさらば!Dockerの概要と使い方
PDF
【論文レベルで理解しよう!】​ 欠測値処理編​
PDF
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
PDF
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
PDF
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
PDF
教師なしGNNによるIoTデバイスの異常通信検知の検討
PPTX
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
PPTX
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
PPTX
【論文読み会】Autoregressive Diffusion Models.pptx
PPTX
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
PPTX
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
PPTX
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
PPTX
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
PPTX
【論文読み会】On the Expressivity of Markov Reward
【JSAI2024】学術論文の定量的評価と効果的な活用について Quantitative evaluation and effective utiliza...
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】ブラックボックス大規模言語モデルにおけるHallucination検知手法の検討.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
めんどうな環境構築とはおさらば!Dockerの概要と使い方
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
教師なしGNNによるIoTデバイスの異常通信検知の検討
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】On the Expressivity of Markov Reward

Recently uploaded (10)

PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ

【論文読み会】Self-Attention Generative Adversarial Networks

  • 1. 1©2019 ARISE analytics Self-Attention Generative Adversarial Networks 2018/09/07 Yuya Kanemoto
  • 2. 2©2019 ARISE analytics 概要 一言で言うと すごい点 Self-attentionを用いて画像の大域的な依存関係を抽出 画像生成の性能指標が大幅に向上  Inception Score (IS): 36.8 → 52.52  Fréchet Inception distance (FID): 27.62 → 18.65 モチベーション GANの精度向上
  • 3. 3©2019 ARISE analytics Table of contents • Background • GAN • Framework • 1クラス画像生成の進展 • 多クラス画像生成の進展 • 評価基準 • Spectral normalization • Self-attention • 本論文
  • 4. 4©2019 ARISE analytics GAN framework Goodfellow et al. 2014. Generative Adversarial Nets
  • 5. 5©2019 ARISE analytics 3.5 Years of Progress on Faces Goodfellow CVPR Tutorial 2018
  • 6. 6©2019 ARISE analytics SOTA on Faces: PG-GAN Kerras et al. ICLR 2018. PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION
  • 7. 7©2019 ARISE analytics <2 Years of Progress on ImageNet Goodfellow CVPR Tutorial 2018
  • 8. 8©2019 ARISE analytics 多クラス画像生成の課題 • ImageNetのような多クラスの画像から学習する際、textureで判断される画像(e.g. 犬の体毛)は綺麗に 生成されやすいのに対して、geometryで判断される画像(e.g. 犬の足)を上手く生成するのは難しい • CNNは局所的な受容野を持つため、大局的な依存関係は層を重ねることによってのみ考慮される 大局的な情報を得るためにCNNを多層にするのはコストがかかる • → Self-attentionでcost-effectiveに大局的な依存関係を抽出(後述) (FID) Miyato et al. ICLR 2018. cGANs WITH PROJECTION DISCRIMINATOR
  • 9. 9©2019 ARISE analytics GANの評価基準 • Inception Score (IS) GANによる生成画像が各クラスを上手く表現できていれば、学習済みモデル(Inception)による 生成画像の分類予測p(y|x)のエントロピーは小さい GANによる生成画像のバリエーションが多ければモデル出力の分布p(y)のエントロピーは大きい • Fréchet Inception distance (FID) Inceptionモデルの特定の層にデータと生成画像からのサンプルを写像し、多変量ガウス分布とみ なして平均・共分散を計算 それらを用いてFréchet距離を計算 ISに比べmode collapseをより的確に捉えることができる Lucic et al. NeurIPS 2018. Are GANs Created Equal? A Large-Scale Study
  • 10. 10©2019 ARISE analytics Lipschitz連続 • GANの学習を安定させるにはLipschitz連続であることが重要であると最近の研究で議論されている (e.g. Wasserstein GAN) • ある写像fがLipschitz連続であるとき、実定数K(≥0)が存在して下式をみたす • Lipschitz連続な写像fにおいて、下図のように常にその外側にグラフが存在する双錐が存在 • Wasserstein GANにおいては、ニューラルネットをLipschitz連続な写像にするためにweight clippingを行った Arjovsky et al. ICML 2017. Wasserstein Generative Adversarial Networks
  • 11. 11©2019 ARISE analytics Spectral Normalization • 活性化関数のLipschitz normが1とすると、ニューラルネットのLipschitz normは各線形層の Lipschitz normの積で表せる • 定義より行列AのSpectral normは式(1)で表され、また行列Aの最大特異値に等しい • 定義より式(2)のように、線形層g(h)=WhのLipschitz normは重み行列WのSpectral normに 等しい • 式(3)の様に重みを正規化して各層にてLipschitz制約σ(W)=1を満たすことにより、ニューラルネッ トfのLipschitz normを1以下に制御 (1) (3) Miyato et al. ICLR 2018. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS (2)
  • 12. 12©2019 ARISE analytics Attention • Source-target attention • 機械翻訳において、Encoder-decoder networkではencoderの出力である固定長ベクトルを decoderに入力として与えるため、長文の場合精度が悪かった • Source(Key & Value)とTarget(Query)の関係性を同時に学習させ、文章入力のどこを重点的に処 理するかのAttention機構を取り入れることにより、長文に対しても精度が向上 • Self-attention • Self-attentionにおいてはKey/Value/Queryが同一の場所(Self)、つまり直前の隠れ層から来る • Self-attentionはある位置の出力を求めるのに下の隠れ層の全ての位置を参照でき、これは局所的な 位置しか参照できない畳み込み層より優れた利点である Luong et al. 2015. Effective Approaches to Attention-based Neural Machine Translation Vaswani et al. NIPS 2017. Attention Is All You Need
  • 14. 14©2019 ARISE analytics Self-attention on image • Self-attention GAN(SAGAN)はself-attentionを用いてattention mapを学習することにより、大局的な 依存関係を推測する • 各クエリ(色ドット)と対応するattention map(白色強度)の例が下図 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 15. 15©2019 ARISE analytics Self-attention mechanism ( ) Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 16. 16©2019 ARISE analytics Self-attention mechanism ( ) Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 17. 17©2019 ARISE analytics Effect of spectral normalization • Spectral Normalizationにより学習が安定 • Spectral Normalizationは元論文ではDiscriminatorのみに適用していたが、Generatorにも適用することでより安定 • Two-timescale update rule (TTUR)という、Generatorの学習率をDiscriminatorの学習率より小さくす る手法により学習が高速化 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 18. 18©2019 ARISE analytics Self-attention vs residual block • Self-attentionという新たなブロックを加え層が深くなったことによる精度向上の可能性を検証するため、対照群 としてResidualブロックを加えたネットワークと比較 • SAGANがFID/ISいずれの指標でもベストスコア、より深い層にブロック挿入した方が高精度 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 19. 19©2019 ARISE analytics Self-attention visualization • Generator側のself-attentionを用いた最後の層のattention mapを可視化 • 鳥の尾や犬の足などの、畳み込みでは捉えづらい大局的な依存関係をattentionが捉えている Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 20. 20©2019 ARISE analytics SOTA on class-conditional GAN • 既存の多クラス画像生成手法と比較 • SOTAを達成、大幅に精度が向上 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 21. 21©2019 ARISE analytics SAGAN-generated images Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 22. 22©2019 ARISE analytics Summary • Self-attentionを用いて大局的な依存関係を抽出 • Spectral normalizationをDiscriminator/Generator双方に適用することによりGAN学習を安定化 • TTURによりGAN学習を高速化 • 多クラス画像生成においてSOTAを達成、大幅に精度が向上