SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Seminar]
DEEP LEARNING JP
[DL Seminar]
EdgeConnect: Generative Image Inpainting
with Adversarial Edge Learning
Tomoki Tanimura, Keio University
• タイトル
• EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning
• 著者
• Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, MhranEbrahimi
• CanadaのOntario大学
• 投稿
• 2月にArxivに投稿されたもの
書誌情報
!2
• 既存のInpainting手法は構造的な情報を過度なスムージングで失ってしまっている
• 画像のEdge MapをImage Inpaintingに利用した手法を提案
• CelebA, Places2, Paris StreeView datasetにおいて,SoTA
概要
!3
• 前提
• 人間は画像を見たときに,一部だけ異なる部分がある(一貫性が保てていない部分がある)と,
そこに意識が集中してしまう
• 既存手法の問題点
• Inpaintingした部分だけが,過度に平滑化されて,ぼやけてしまっている
• →何とかしたい
• 仮説
• Lines First, Color Next
• 画像のEdge Mapを利用すれば,はっきりした画像が再構成できるのではないか?
モチベーション
!4
• Edge Mapを利用したImage Inpainting手法を提案
• 手法の概要
• Edge Generator: Edge Mapにおけるマスク部分をInpainting
• Image Completion Network: InpaintingされたEdge Mapを利用して,元画像をInpainting
提案手法
!5
もっとわかりやすい画像に変更する
Image Inpaintingとは
!6
• 画像の欠損部分を自然に埋めるタスク
• 拡散ベース (Diffusion based)
• パッチベース (Patch based)
• 学習ベース (Learning based)
• ネットワークの工夫
既存手法
!7
• 特徴
• 周辺ピクセルの加重平均をとったりする手法
• OpenCVにデフォルトで実装されているような手法
• 限界
• 画像の意味的な情報を考慮できない
• 大きな範囲を再構成することには限界がある
拡散ベース (Diffusion based)
!8
• 特徴
• マスク領域周辺に類似している領域を同じ画像ないから検索し貼り付ける
• マスク領域に類似する領域が画像内に存在することが前提
• 限界
• 顔画像において口を再構成するケースのように

画像にないものを再構成することはできない
• 出現頻度が低いものを再構成が難しい
• PatchMatch
• 類似パッチの検索をランダムに行うアルゴリズムを提案し,

計算時間を圧倒的に短縮した
パッチベース
!9
PatchMatch
• 特徴
• GANのGeneratorをImage Inpainting Networkにして学習する
• 入力は元画像とマスク画像,再構成したものと元画像をDiscriminatorにかける
• 限界
• 過度に平滑化されてぼやけた出力になってしまう
• GLCIC
• Dilated Conv & 2つのGlobalとLoaclの

Discriminatorによって高精度のInpaintingを実現
学習ベース
!10
GLCIC
• 特徴
• 基本は学習ベースの手法で,様々なCV系のタスクで使われるテクニックを盛り込んだ
• 限界
• そもそもCoarse resultが正しい構造を持っているとは

限らない
• マスクの形が限られる
• CA (with Contextual Attention)
• Coarse-to-Fine構造の導入
• Coarse Resultと元々の入力画像との

類似度を計算するAttention機構を導入
ネットワークの工夫
!11
CA (Generative Image Inpainting
with Contextual Attention)
• G1 (Edge Generator)とG2 (Image Completion Network)で構成される
• Edge Generater (G1)
• 入力: グレースケール画像,Edge画像,マスク画像
• 出力: 再構成されたEdge画像
• Image Completion Network (G2)
• 入力: 元画像,再構成されたEdge画像
• 出力: 再構成画像
EdgeConnect
!12
Edge Generater
Image Completion Net
学習
• G1とG2を,D1, D2を用いて

それぞれ別々に学習

• D1を抜いて,G1とG2を

End-to-Endで学習
• Generater
• Dilated Residual Blocks
• 各層: Convolution - Spectral Norm

- Instance Norm - ReLU
• Loss
• Adversarial Loss + Feature-Matching Loss
• Adversarial Loss (SNGAN)
• Feature Matching Loss
Edge Generator
!13
• Generater
• ノイズから何らかの画像を生成する
• Discriminater
• 生成された画像とデータセットにあるリアル
な画像を見て,どちらが本物の画像かを見分
ける
• イメージ
• Discriminaterの見分ける能力が高まる
• Generaterは見分ける能力が高まった
Discriminaterをだますように学習する
• 結果的にGeneraterが本物のような画像を生
成できるようになる
Adversarial Loss
!14
• 入力画像と,入力画像にマスクをかけた画像
を用意
• Generater
• マスクを含む入力画像からマスクを再構成
した画像を生成
• Discriminater
• 元々の入力画像とマスク部分が再構成され
た入力画像を識別す
• 目的関数
•  
• C: Completion Network (Generater)

D: Discriminater, M: Mask
Image Inpaintingにおける敵対的学習
!15
Edge GeneraterのAdversarial Loss
!16
マスクがかかる前の白黒画像
再構成されたエッジ画像元画像から作成したエッジ画像
• Discriminaterの中間層のFeature Map比較する
• 再構成画像を入力した時のDのFeature Map
• 元画像を入力した時のDのFeature Mapを比較
• 各Feature MapのL1 Lossの期待値を最小化する
• Perceptual Lossに似ているが,今回はEdge画像であるため,Perceptual Lossによる学習は難
しいため,Feature Matching Lossにした
Feature Matching Loss
!17
生成画像の
Feature Map
リアル画像の
Feature Map
各Feature Mapの
差分の期待値
• GeneraterはEdge Generaterと同じ
• Loss
• L1 Loss + Adversarial Loss + Perceptual Loss + Style Loss
• Perceptual Loss
• Style Loss
• Adversarial Loss (without SN)
• Loss関数による制約が多いため,SNを入れると学習が極端に遅くなるため,抜いた
Image Completion Network
!18
• 単純な生成結果とリアル画像の結果の差分を測るの
ではなく,生成結果とリアル画像が類似した特徴量
を持つように学習する(画像のコンテンツ近づける)
• 生成画像とリアル画像をLoss Network (VGG
pertained by Image Netなど)に入力した際の
Feature Mapの差分
•  
Perceptual Loss
!19
9
Perceptual Lossの論文の図
生成画像の
Feature Map
リアル画像の
Feature Map
各Feature Mapの
差分の期待値
• 生成画像とリアル画像のスタイル(色,テクスチャ,
視覚的なパターン)が似るように学習
• Perceptual Lossで利用するFeature Mapのペア(生
成とリアル)のグラムマトリックスの差分
•
Style Loss
!20
9
Style Lossの論文の図
生成画像の
Feature Mapの
Gram Matrix
リアル画像の
Feature Mapの
Gram Matirx
Gram Matrix
チャンネルcとc’におけるFeature Mapの要素席の和
• Edgeの検出
• 正解データの作成も含め,Cannyエッジ検出を利用した
• 他のEdge検出手法を使用した時の精度比較も行なっている
• Mask画像
• Regular HoleとIrregular holeどちらも使用して実験した
• 画像データセット
• CelebA, Places2, Paris StreetView
• サイズ: 256x256
実験
!21
Regular Hole
Irregular Hole
CelebA
Places2 Paris Street View
• 定性評価
• Inpaintingの結果とEdge画像のInpaintingの結果
• GLCIC, CAの結果との比較
• 定量評価
• L1, PSNR, SSIM, FID
• ユーザー評価
• 画像を見せてリアルか否かを答えるテスト
• リアル画像と再構成結果の画像を見せてどちらがリアルかを答えるテスト
• Edgeを利用することによる精度向上に関する検証
実験内容
!22
• 画像の広範囲にマスクがかかっていてもリアルな再構成が可能
• Style LossによってCheckerboard模様がなく,綺麗に生成されている.
定性評価
!23
Original Input (Inpainted)
Edge
Inpainted Original Input (Inpainted)
Edge
Inpainted
• 他の手法よりもGTに近い結果を得られた.
• Edgeの情報を利用することで,Inpaintingの際に色の分布だけを学習すれば良いため,精度が
高いらしい
他の手法との比較
!24
CA GLCIC EdgeのGTを使用して
Inpainting
• PSNR(ピーク信号ノイズ比)
• 2つの画像間のノイズ比率を表す.
• SSIM(Structual Similarity)
• 画素値の変化,コントラストの変化,構造の変化を表す
定量評価指標
!25
PSNR = 10 ⇥ log10
MAX2
I
MSE
= 20 ⇥ log10
MAXI
p
MSE
SSIM =
(2µxµy + c1)(2σxy + c2)
(µ2
x + µ2
y + c1)(σ2
x + σ2
y + c2)
• FID (Frechet Inception Distance)
• 画像間の特徴を比較するスコア(ピクセル依存じゃない)
• Inception-V3にリアル画像を入力した時と生成された画像を入力した時の中間層のベクトルhを
比較
• 各ベクトルhが多次元のガウス分布に従っていると仮定し,分布間のWasserstein距離を測る
定量評価指標
!26
• 画像に対するマスクの比率を変えながら,各
指標を測定
• だいたい勝ってる
• L1 LossがPconvに負けているのは測定に公平
さがないためだと主張
• Pconvは著者実装が公開されていなかったった
め,論文内にある値のみ
定量評価の結果
!27
• 2AFC: ランダムで選択された画像を見せて,リアルかリアルじゃないか答える
• JND: リアル画像と生成画像を見せて,どっちがリアルか答えさせる
• 結果
• 従来手法に比べて,かなりスコアは高くなっている
•                    を考えると,結構高い
ユーザー評価
!28
• Edgeありとなしで同じネットワークで学習した結果
• Edge無しの場合は,Image Completion Networkの方だけを学習した
• Edgeが効いていることがわかった
Edgeの効果
!29
• Canny Edge検出のガウシアンフィルターの標準偏差 (σ)をいろんな値に変化させた
• σが低いとあまりsmoothingされないため細かいEdgeまで検出される
• 高いと逆に検出されない
Edgeの検出方法によるInpaintingへの影響
!30
• Cannyによるエッジ検出とNNベースのHEDという手法を組み合わせた
• HEDはEdgeごとに強度や太さも出る
• 仮説
• Cannyとの要素席をとれば,より手書きっぽいEdge画像が生成できる
• 手書きっぽいほどうまくInpaintできるのでは
• 結果無理だった
他の検出手法を試した
!31
アプリケーション
!32
片方を別の画像のEdgeにして生成
不要なオブジェクトを除去するために使用
• 画像のEdge情報を利用することで,自然な再構成を実現した
• 従来手法よりも高い精度を達成した
• EdgeがInpaintingに効いていることがわかった
• Edge Generaterがうまく再構成できないといけないので,その改良が必要
• 高解像度の画像に対してはEdgeの再構成が難しい
まとめ
!33

More Related Content

PPTX
[DL輪読会]Dense Captioning分野のまとめ
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PPTX
画像キャプションの自動生成
PDF
Towards Performant Video Recognition
PDF
【メタサーベイ】Video Transformer
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
[DL輪読会]Dense Captioning分野のまとめ
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
画像キャプションの自動生成
Towards Performant Video Recognition
【メタサーベイ】Video Transformer
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~

What's hot (20)

PDF
画像生成・生成モデル メタサーベイ
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PDF
自己教師学習(Self-Supervised Learning)
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
PDF
12. Diffusion Model の数学的基礎.pdf
PDF
画像認識の初歩、SIFT,SURF特徴量
PPTX
[DL輪読会]Objects as Points
PDF
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
PDF
【メタサーベイ】Neural Fields
PDF
GAN(と強化学習との関係)
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
深層生成モデルと世界モデル
PDF
生成モデルの Deep Learning
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PDF
A brief introduction to recent segmentation methods
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PPTX
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PDF
Overcoming Catastrophic Forgetting in Neural Networks読んだ
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
画像生成・生成モデル メタサーベイ
【DL輪読会】ViT + Self Supervised Learningまとめ
自己教師学習(Self-Supervised Learning)
[DL輪読会]DropBlock: A regularization method for convolutional networks
12. Diffusion Model の数学的基礎.pdf
画像認識の初歩、SIFT,SURF特徴量
[DL輪読会]Objects as Points
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
【メタサーベイ】Neural Fields
GAN(と強化学習との関係)
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
深層生成モデルと世界モデル
生成モデルの Deep Learning
モデルアーキテクチャ観点からのDeep Neural Network高速化
A brief introduction to recent segmentation methods
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Overcoming Catastrophic Forgetting in Neural Networks読んだ
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Ad

[DL輪読会]EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning