7. How to Train?
MLE(Maximum Likelihood Estimation)에 의해서, 파라미터를 가진 모델이 참인
분포에 가깝게 추정하도록 하려면 PDF값을 Maximize 해야한다.
문제는 아래의 모든 표현이 Intractable 하다는 점이다.
8. Variational Inference
복잡한 분포를 다루기 쉬운 확률분포로 근사하는 방법
용례 : Marginal Probability (p(x)=Σz p(x,z)), Likelihood ( 복잡한p(x|z)의 모델링) 등
VAE에서는 엔코더 NN으로 p(z|x)를 근사(엔코더와 실제 분포의 KL Divergence를
감소시키는 방향으로 학습)
14. KL Divergence Term
p(z)가 정규분포 N(0,I)을 따르고, 사후확률에 대한 근사도 정규분포를 따를때 KL
Term은 계산가능하다. Latent Variable z의 dimension을 J라 한다면 평균과
표준편차의 j번째 성분에 대하여 다음과 같은 식이 성립한다.