SlideShare a Scribd company logo
Image-to-Image Translation with
Conditional Adversarial Network
Pix2Pix Network

CVPR 2017 (IF:2.159)
2020.07.29(수)

프로메디우스

고 재 영(인턴)
[Pix2 pix] image to-image translation with conditional adversarial network review
CycleGAN
Pix2Pix
양 방향으로 동시에 모델 학습
Label이 없어도 학습 가능.
한 방향으로만 학습이 가능
이미지 —> 라벨
라벨—> 이미지
Model Architecture
UNet 구조 사용
PatchGAN
Model Architecture
PatchGAN
기존 Discriminator (DCGAN 참고)
→ 이미지 전체를 보고 True / False 판별
Discriminator using PatchGAN
→ 이미지 전체에서 특정 Patch 부분을 보고
그 부분이 True/False 판별
Model Architecture
👉 High frequency correctness(detail한 영역),
CGAN Loss랑 같이 사용하면 정답이랑 조금 다르지만,
실제 같은 이미지를 생성
Model Architecture
Ck
CDk
Conv(kernel_size=(4, 4), stride=2) - BatchNorm - ReLU
Conv(kernel_size=(4, 4), stride=2) - BatchNorm - Dropout(ratio=0.5) - ReLU
Conv2D(stride=2)
Encoder & Discriminator의 Downsample에 적용
Decoder의 Upsample에 적용
Encoder C64 - C128 - C256 - C512 - C512 - C512 - C512 - C512
Model Architecture
Decoder CD512 - CD512 - CD512 - C512 - C256 - C128 - C64
UNet
Decoder CD512 - CD1024 - CD1024 - C1024 - C1024 - C512 - C256 - C128
Out channels:3, Tanh( )
ReLU( )
LeakyReLU( 0.2 )
Generator
PatchGAN C64 - C128 - C256 - C512
Model Architecture Discrminator
첫번째 레이어만 Batch Normalization 제거
Receptive field size에 따라 layer 개수가 달라짐
Out channels : 1, Sigmoid( )
Loss Function
Total Loss = Conditional GAN Loss + L1 Loss
Loss Function
Total Loss = Conditional GAN Loss + L1 Loss
Loss Function
Total Loss = Conditional GAN Loss + L1 Loss
lambda = 100
Loss Function
Total Loss = Conditional GAN Loss + L1 Loss
low-frequency correctness → Blur한 이미지 생성
→ original 영상 - generation 영상 사이의
Euclidean distance를 최소화 하는 방향에 집중,
(영상의 평균 성분[low-frequency])
Training
Jitter
Weight Initialized
Image(256, 256) → Resize(286, 286) → RandomCrop(256, 256)
👉 Data Augmentation 해주는 효과
mean=0, std = 0.2 in Gaussian Distribution
*jitter : 디지털 펄스 신호 파형이 시간축 상으로 흐틀어지는 현상. (Wiki)

More Related Content

PPTX
Encoding in Style: a Style Encoder for Image-to-Image Translation
PDF
Versatile tensor accelerator (vta) introduction and usage
PDF
I3D and Kinetics datasets (Action Recognition)
PDF
PR-218: MFAS: Multimodal Fusion Architecture Search
PDF
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
PDF
[Paper] shuffle net an extremely efficient convolutional neural network for ...
PDF
Long term feature banks for detailed video understanding (Action Recognition)
PDF
Simple Review of Single Image Super Resolution Task
Encoding in Style: a Style Encoder for Image-to-Image Translation
Versatile tensor accelerator (vta) introduction and usage
I3D and Kinetics datasets (Action Recognition)
PR-218: MFAS: Multimodal Fusion Architecture Search
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[Paper] shuffle net an extremely efficient convolutional neural network for ...
Long term feature banks for detailed video understanding (Action Recognition)
Simple Review of Single Image Super Resolution Task

Similar to [Pix2 pix] image to-image translation with conditional adversarial network review (20)

PDF
Vid2vid
PDF
Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)
PPTX
Human Pose Estimation 기술 습득과 메타버스 서비스 개발
PPTX
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
PPTX
썬소프트 "드론을 이용한 실시간 폭력 개인 식별 시스템"재직자교육 강의안
PPTX
[0326 박민근] deferred shading
PDF
딥러닝 논문읽기 efficient netv2 논문리뷰
PPTX
Introduce midas plant 1
PPTX
2015 제2회 동아리 해커 세미나 - 병렬컴퓨팅 소개 (16기 김정현)
PDF
윈도우 매니저 스터디: 1. 윈도우 매니저 출력
PPTX
호서대학교 - 다양한 오픈소스 활용법 (Colab을 이용하여)
PPTX
[조진현]Kgc2012 c++amp
PPTX
Graph convolutional matrix completion
PDF
Detecting fake jpeg images
PPTX
[0129 박민근] direct x2d
PPTX
Tips and experience of DX12 Engine development .
PPTX
Shaderstudy Motion Blur
PPTX
Openface
PPTX
Review SRGAN
Vid2vid
Semantic Image Synthesis with Spatially-Adaptive Normalization(GAUGAN, SPADE)
Human Pose Estimation 기술 습득과 메타버스 서비스 개발
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
썬소프트 "드론을 이용한 실시간 폭력 개인 식별 시스템"재직자교육 강의안
[0326 박민근] deferred shading
딥러닝 논문읽기 efficient netv2 논문리뷰
Introduce midas plant 1
2015 제2회 동아리 해커 세미나 - 병렬컴퓨팅 소개 (16기 김정현)
윈도우 매니저 스터디: 1. 윈도우 매니저 출력
호서대학교 - 다양한 오픈소스 활용법 (Colab을 이용하여)
[조진현]Kgc2012 c++amp
Graph convolutional matrix completion
Detecting fake jpeg images
[0129 박민근] direct x2d
Tips and experience of DX12 Engine development .
Shaderstudy Motion Blur
Openface
Review SRGAN
Ad

[Pix2 pix] image to-image translation with conditional adversarial network review

  • 1. Image-to-Image Translation with Conditional Adversarial Network Pix2Pix Network CVPR 2017 (IF:2.159) 2020.07.29(수) 프로메디우스 고 재 영(인턴)
  • 3. CycleGAN Pix2Pix 양 방향으로 동시에 모델 학습 Label이 없어도 학습 가능. 한 방향으로만 학습이 가능 이미지 —> 라벨 라벨—> 이미지 Model Architecture
  • 5. PatchGAN 기존 Discriminator (DCGAN 참고) → 이미지 전체를 보고 True / False 판별 Discriminator using PatchGAN → 이미지 전체에서 특정 Patch 부분을 보고 그 부분이 True/False 판별 Model Architecture 👉 High frequency correctness(detail한 영역), CGAN Loss랑 같이 사용하면 정답이랑 조금 다르지만, 실제 같은 이미지를 생성
  • 6. Model Architecture Ck CDk Conv(kernel_size=(4, 4), stride=2) - BatchNorm - ReLU Conv(kernel_size=(4, 4), stride=2) - BatchNorm - Dropout(ratio=0.5) - ReLU Conv2D(stride=2) Encoder & Discriminator의 Downsample에 적용 Decoder의 Upsample에 적용
  • 7. Encoder C64 - C128 - C256 - C512 - C512 - C512 - C512 - C512 Model Architecture Decoder CD512 - CD512 - CD512 - C512 - C256 - C128 - C64 UNet Decoder CD512 - CD1024 - CD1024 - C1024 - C1024 - C512 - C256 - C128 Out channels:3, Tanh( ) ReLU( ) LeakyReLU( 0.2 ) Generator
  • 8. PatchGAN C64 - C128 - C256 - C512 Model Architecture Discrminator 첫번째 레이어만 Batch Normalization 제거 Receptive field size에 따라 layer 개수가 달라짐 Out channels : 1, Sigmoid( )
  • 9. Loss Function Total Loss = Conditional GAN Loss + L1 Loss
  • 10. Loss Function Total Loss = Conditional GAN Loss + L1 Loss
  • 11. Loss Function Total Loss = Conditional GAN Loss + L1 Loss lambda = 100
  • 12. Loss Function Total Loss = Conditional GAN Loss + L1 Loss low-frequency correctness → Blur한 이미지 생성 → original 영상 - generation 영상 사이의 Euclidean distance를 최소화 하는 방향에 집중, (영상의 평균 성분[low-frequency])
  • 13. Training Jitter Weight Initialized Image(256, 256) → Resize(286, 286) → RandomCrop(256, 256) 👉 Data Augmentation 해주는 효과 mean=0, std = 0.2 in Gaussian Distribution *jitter : 디지털 펄스 신호 파형이 시간축 상으로 흐틀어지는 현상. (Wiki)