Submit Search
[DL輪読会]EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning
2 likes
2,741 views
Deep Learning JP
2019/03/29 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
Related topics:
Deep Learning
Read more
1 of 33
Download now
Downloaded 30 times
1
2
3
4
5
6
7
8
Most read
9
10
11
12
Most read
13
14
15
16
Most read
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
More Related Content
PPTX
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
PPTX
画像キャプションの自動生成
Yoshitaka Ushiku
PDF
Towards Performant Video Recognition
cvpaper. challenge
PDF
【メタサーベイ】Video Transformer
cvpaper. challenge
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
PDF
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
画像キャプションの自動生成
Yoshitaka Ushiku
Towards Performant Video Recognition
cvpaper. challenge
【メタサーベイ】Video Transformer
cvpaper. challenge
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII
What's hot
(20)
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
PDF
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
PDF
画像認識の初歩、SIFT,SURF特徴量
takaya imai
PPTX
[DL輪読会]Objects as Points
Deep Learning JP
PDF
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
PDF
【メタサーベイ】Neural Fields
cvpaper. challenge
PDF
GAN(と強化学習との関係)
Masahiro Suzuki
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
PDF
生成モデルの Deep Learning
Seiya Tokui
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
PDF
A brief introduction to recent segmentation methods
Shunta Saito
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
PPTX
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
PDF
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
画像生成・生成モデル メタサーベイ
cvpaper. challenge
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
画像認識の初歩、SIFT,SURF特徴量
takaya imai
[DL輪読会]Objects as Points
Deep Learning JP
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
【メタサーベイ】Neural Fields
cvpaper. challenge
GAN(と強化学習との関係)
Masahiro Suzuki
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
深層生成モデルと世界モデル
Masahiro Suzuki
生成モデルの Deep Learning
Seiya Tokui
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
A brief introduction to recent segmentation methods
Shunta Saito
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
Ad
[DL輪読会]EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning
1.
DEEP LEARNING JP [DL
Seminar] DEEP LEARNING JP [DL Seminar] EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning Tomoki Tanimura, Keio University
2.
• タイトル • EdgeConnect:
Generative Image Inpainting with Adversarial Edge Learning • 著者 • Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, MhranEbrahimi • CanadaのOntario大学 • 投稿 • 2月にArxivに投稿されたもの 書誌情報 !2
3.
• 既存のInpainting手法は構造的な情報を過度なスムージングで失ってしまっている • 画像のEdge
MapをImage Inpaintingに利用した手法を提案 • CelebA, Places2, Paris StreeView datasetにおいて,SoTA 概要 !3
4.
• 前提 • 人間は画像を見たときに,一部だけ異なる部分がある(一貫性が保てていない部分がある)と, そこに意識が集中してしまう •
既存手法の問題点 • Inpaintingした部分だけが,過度に平滑化されて,ぼやけてしまっている • →何とかしたい • 仮説 • Lines First, Color Next • 画像のEdge Mapを利用すれば,はっきりした画像が再構成できるのではないか? モチベーション !4
5.
• Edge Mapを利用したImage
Inpainting手法を提案 • 手法の概要 • Edge Generator: Edge Mapにおけるマスク部分をInpainting • Image Completion Network: InpaintingされたEdge Mapを利用して,元画像をInpainting 提案手法 !5 もっとわかりやすい画像に変更する
6.
Image Inpaintingとは !6 • 画像の欠損部分を自然に埋めるタスク
7.
• 拡散ベース (Diffusion
based) • パッチベース (Patch based) • 学習ベース (Learning based) • ネットワークの工夫 既存手法 !7
8.
• 特徴 • 周辺ピクセルの加重平均をとったりする手法 •
OpenCVにデフォルトで実装されているような手法 • 限界 • 画像の意味的な情報を考慮できない • 大きな範囲を再構成することには限界がある 拡散ベース (Diffusion based) !8
9.
• 特徴 • マスク領域周辺に類似している領域を同じ画像ないから検索し貼り付ける •
マスク領域に類似する領域が画像内に存在することが前提 • 限界 • 顔画像において口を再構成するケースのように 画像にないものを再構成することはできない • 出現頻度が低いものを再構成が難しい • PatchMatch • 類似パッチの検索をランダムに行うアルゴリズムを提案し, 計算時間を圧倒的に短縮した パッチベース !9 PatchMatch
10.
• 特徴 • GANのGeneratorをImage
Inpainting Networkにして学習する • 入力は元画像とマスク画像,再構成したものと元画像をDiscriminatorにかける • 限界 • 過度に平滑化されてぼやけた出力になってしまう • GLCIC • Dilated Conv & 2つのGlobalとLoaclの Discriminatorによって高精度のInpaintingを実現 学習ベース !10 GLCIC
11.
• 特徴 • 基本は学習ベースの手法で,様々なCV系のタスクで使われるテクニックを盛り込んだ •
限界 • そもそもCoarse resultが正しい構造を持っているとは 限らない • マスクの形が限られる • CA (with Contextual Attention) • Coarse-to-Fine構造の導入 • Coarse Resultと元々の入力画像との 類似度を計算するAttention機構を導入 ネットワークの工夫 !11 CA (Generative Image Inpainting with Contextual Attention)
12.
• G1 (Edge
Generator)とG2 (Image Completion Network)で構成される • Edge Generater (G1) • 入力: グレースケール画像,Edge画像,マスク画像 • 出力: 再構成されたEdge画像 • Image Completion Network (G2) • 入力: 元画像,再構成されたEdge画像 • 出力: 再構成画像 EdgeConnect !12 Edge Generater Image Completion Net 学習 • G1とG2を,D1, D2を用いて それぞれ別々に学習 • D1を抜いて,G1とG2を End-to-Endで学習
13.
• Generater • Dilated
Residual Blocks • 各層: Convolution - Spectral Norm - Instance Norm - ReLU • Loss • Adversarial Loss + Feature-Matching Loss • Adversarial Loss (SNGAN) • Feature Matching Loss Edge Generator !13
14.
• Generater • ノイズから何らかの画像を生成する •
Discriminater • 生成された画像とデータセットにあるリアル な画像を見て,どちらが本物の画像かを見分 ける • イメージ • Discriminaterの見分ける能力が高まる • Generaterは見分ける能力が高まった Discriminaterをだますように学習する • 結果的にGeneraterが本物のような画像を生 成できるようになる Adversarial Loss !14
15.
• 入力画像と,入力画像にマスクをかけた画像 を用意 • Generater •
マスクを含む入力画像からマスクを再構成 した画像を生成 • Discriminater • 元々の入力画像とマスク部分が再構成され た入力画像を識別す • 目的関数 • • C: Completion Network (Generater) D: Discriminater, M: Mask Image Inpaintingにおける敵対的学習 !15
16.
Edge GeneraterのAdversarial Loss !16 マスクがかかる前の白黒画像 再構成されたエッジ画像元画像から作成したエッジ画像
17.
• Discriminaterの中間層のFeature Map比較する •
再構成画像を入力した時のDのFeature Map • 元画像を入力した時のDのFeature Mapを比較 • 各Feature MapのL1 Lossの期待値を最小化する • Perceptual Lossに似ているが,今回はEdge画像であるため,Perceptual Lossによる学習は難 しいため,Feature Matching Lossにした Feature Matching Loss !17 生成画像の Feature Map リアル画像の Feature Map 各Feature Mapの 差分の期待値
18.
• GeneraterはEdge Generaterと同じ •
Loss • L1 Loss + Adversarial Loss + Perceptual Loss + Style Loss • Perceptual Loss • Style Loss • Adversarial Loss (without SN) • Loss関数による制約が多いため,SNを入れると学習が極端に遅くなるため,抜いた Image Completion Network !18
19.
• 単純な生成結果とリアル画像の結果の差分を測るの ではなく,生成結果とリアル画像が類似した特徴量 を持つように学習する(画像のコンテンツ近づける) • 生成画像とリアル画像をLoss
Network (VGG pertained by Image Netなど)に入力した際の Feature Mapの差分 • Perceptual Loss !19 9 Perceptual Lossの論文の図 生成画像の Feature Map リアル画像の Feature Map 各Feature Mapの 差分の期待値
20.
• 生成画像とリアル画像のスタイル(色,テクスチャ, 視覚的なパターン)が似るように学習 • Perceptual
Lossで利用するFeature Mapのペア(生 成とリアル)のグラムマトリックスの差分 • Style Loss !20 9 Style Lossの論文の図 生成画像の Feature Mapの Gram Matrix リアル画像の Feature Mapの Gram Matirx Gram Matrix チャンネルcとc’におけるFeature Mapの要素席の和
21.
• Edgeの検出 • 正解データの作成も含め,Cannyエッジ検出を利用した •
他のEdge検出手法を使用した時の精度比較も行なっている • Mask画像 • Regular HoleとIrregular holeどちらも使用して実験した • 画像データセット • CelebA, Places2, Paris StreetView • サイズ: 256x256 実験 !21 Regular Hole Irregular Hole CelebA Places2 Paris Street View
22.
• 定性評価 • Inpaintingの結果とEdge画像のInpaintingの結果 •
GLCIC, CAの結果との比較 • 定量評価 • L1, PSNR, SSIM, FID • ユーザー評価 • 画像を見せてリアルか否かを答えるテスト • リアル画像と再構成結果の画像を見せてどちらがリアルかを答えるテスト • Edgeを利用することによる精度向上に関する検証 実験内容 !22
23.
• 画像の広範囲にマスクがかかっていてもリアルな再構成が可能 • Style
LossによってCheckerboard模様がなく,綺麗に生成されている. 定性評価 !23 Original Input (Inpainted) Edge Inpainted Original Input (Inpainted) Edge Inpainted
24.
• 他の手法よりもGTに近い結果を得られた. • Edgeの情報を利用することで,Inpaintingの際に色の分布だけを学習すれば良いため,精度が 高いらしい 他の手法との比較 !24 CA
GLCIC EdgeのGTを使用して Inpainting
25.
• PSNR(ピーク信号ノイズ比) • 2つの画像間のノイズ比率を表す. •
SSIM(Structual Similarity) • 画素値の変化,コントラストの変化,構造の変化を表す 定量評価指標 !25 PSNR = 10 ⇥ log10 MAX2 I MSE = 20 ⇥ log10 MAXI p MSE SSIM = (2µxµy + c1)(2σxy + c2) (µ2 x + µ2 y + c1)(σ2 x + σ2 y + c2)
26.
• FID (Frechet
Inception Distance) • 画像間の特徴を比較するスコア(ピクセル依存じゃない) • Inception-V3にリアル画像を入力した時と生成された画像を入力した時の中間層のベクトルhを 比較 • 各ベクトルhが多次元のガウス分布に従っていると仮定し,分布間のWasserstein距離を測る 定量評価指標 !26
27.
• 画像に対するマスクの比率を変えながら,各 指標を測定 • だいたい勝ってる •
L1 LossがPconvに負けているのは測定に公平 さがないためだと主張 • Pconvは著者実装が公開されていなかったった め,論文内にある値のみ 定量評価の結果 !27
28.
• 2AFC: ランダムで選択された画像を見せて,リアルかリアルじゃないか答える •
JND: リアル画像と生成画像を見せて,どっちがリアルか答えさせる • 結果 • 従来手法に比べて,かなりスコアは高くなっている • を考えると,結構高い ユーザー評価 !28
29.
• Edgeありとなしで同じネットワークで学習した結果 • Edge無しの場合は,Image
Completion Networkの方だけを学習した • Edgeが効いていることがわかった Edgeの効果 !29
30.
• Canny Edge検出のガウシアンフィルターの標準偏差
(σ)をいろんな値に変化させた • σが低いとあまりsmoothingされないため細かいEdgeまで検出される • 高いと逆に検出されない Edgeの検出方法によるInpaintingへの影響 !30
31.
• Cannyによるエッジ検出とNNベースのHEDという手法を組み合わせた • HEDはEdgeごとに強度や太さも出る •
仮説 • Cannyとの要素席をとれば,より手書きっぽいEdge画像が生成できる • 手書きっぽいほどうまくInpaintできるのでは • 結果無理だった 他の検出手法を試した !31
32.
アプリケーション !32 片方を別の画像のEdgeにして生成 不要なオブジェクトを除去するために使用
33.
• 画像のEdge情報を利用することで,自然な再構成を実現した • 従来手法よりも高い精度を達成した •
EdgeがInpaintingに効いていることがわかった • Edge Generaterがうまく再構成できないといけないので,その改良が必要 • 高解像度の画像に対してはEdgeの再構成が難しい まとめ !33
Download