
Introduction최근 이미지, 음성, 비디오 생성 모델 분야가 발전하면서 인상적인 결과물을 만들고 있다. few-shot learning, 강화학습과 같은 어려운 문제들은 데이터로부터 유용한 표현을 학습하는 것이 중요하지만, 비지도 학습으로 좋은 표현을 얻는 방법은 아직 보편적으로 사용되지 못하고 있다. 현재 비지도 학습 모델들은 주로 MLE나 복원 에러를 기준으로 훈련되지만, 이 기준들의 유용성은 적용되는 분야에 따라 달라지는 한계점이 있다. 본 논문에서는 MLE를 최적화하면서도 데이터의 중요한 특징을 잠재 공간에 잘 보존하는 모델을 만드는 것이다. 우리는 이산적이고 유용한 잠재 변수를 학습하는 것이 중요하다고 생각하며, 우리의 접근법이 효과적임을 증명할 것이다. 연속적인 특징의 표현을 학습하는 ..