[Pix2 pix] image to-image translation with conditional adversarial network review

Image-to-Image Translation with
Conditional Adversarial Network
Pix2Pix Network

CVPR 2017 (IF:2.159)
2020.07.29(수)

프로메디우스

고 재 영(인턴)

CycleGAN
Pix2Pix
양 방향으로 동시에 모델 학습
Label이 없어도 학습 가능.
한 방향으로만 학습이 가능
이미지 —> 라벨
라벨—> 이미지
Model Architecture

UNet 구조 사용
PatchGAN
Model Architecture

PatchGAN
기존 Discriminator (DCGAN 참고)
→ 이미지 전체를 보고 True / False 판별
Discriminator using PatchGAN
→ 이미지 전체에서 특정 Patch 부분을 보고
그 부분이 True/False 판별
Model Architecture
👉 High frequency correctness(detail한 영역),
CGAN Loss랑 같이 사용하면 정답이랑 조금 다르지만,
실제 같은 이미지를 생성

Model Architecture
Ck
CDk
Conv(kernel_size=(4, 4), stride=2) - BatchNorm - ReLU
Conv(kernel_size=(4, 4), stride=2) - BatchNorm - Dropout(ratio=0.5) - ReLU
Conv2D(stride=2)
Encoder & Discriminator의 Downsample에 적용
Decoder의 Upsample에 적용

Encoder C64 - C128 - C256 - C512 - C512 - C512 - C512 - C512
Model Architecture
Decoder CD512 - CD512 - CD512 - C512 - C256 - C128 - C64
UNet
Decoder CD512 - CD1024 - CD1024 - C1024 - C1024 - C512 - C256 - C128
Out channels:3, Tanh( )
ReLU( )
LeakyReLU( 0.2 )
Generator

PatchGAN C64 - C128 - C256 - C512
Model Architecture Discrminator
첫번째 레이어만 Batch Normalization 제거
Receptive ﬁeld size에 따라 layer 개수가 달라짐
Out channels : 1, Sigmoid( )

Loss Function
Total Loss = Conditional GAN Loss + L1 Loss

Loss Function
lambda = 100

Loss Function
low-frequency correctness → Blur한 이미지 생성
→ original 영상 - generation 영상 사이의
Euclidean distance를 최소화 하는 방향에 집중,
(영상의 평균 성분[low-frequency])

Training
Jitter
Weight Initialized
Image(256, 256) → Resize(286, 286) → RandomCrop(256, 256)
👉 Data Augmentation 해주는 효과
mean=0, std = 0.2 in Gaussian Distribution
*jitter : 디지털 펄스 신호 파형이 시간축 상으로 흐틀어지는 현상. (Wiki)

[Pix2 pix] image to-image translation with conditional adversarial network review

More Related Content

Similar to [Pix2 pix] image to-image translation with conditional adversarial network review (20)

[Pix2 pix] image to-image translation with conditional adversarial network review