MSGAN: Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis

기존의 cGANs는 latent code zz가 변화해도 결과값의 변화가 거의 없는 것을 보여준다. 일종의 mode collapse로 볼 수 있다.

Task driven이 아닌 cGANs 계열의 모델들을 개량하는 방법에 대한 논문이다. 기존의 cGANs들은 위 이미지처럼 latent code의 변화에 반응이 무딘 모습을 보여준다. 하지만 이를 반대로 이용해 "latent code가 변화하는 만큼 output도 변화하도록 학습시키면 어떨까?" 하는 호기심에서 착안한 것이 MSGANs이다.

오른쪽의 빨간 글씨 0.17에 주목하자. 파란색 같은 경우는 mode를 두 개(M2M2, M4M4)밖에 학습하지 못해 Z1Z1과 Z2Z2가 같은 mode의 이미지를 생성하여 mode간 거리가 MSGANs보다 짧은 모습을 보여준다. 생성된 Image의 distribution이 더 넓게 분포할수록 mode간 거리가 커질 것으로 예상할 수 있다.

이에 latent code 변화의 크기에 생성된 이미지가 잘 반응할 수 있도록 regualrizer를 추가한다.

L_{ms}= \max_G (\frac{d_1(G(c,z_1),G(c,z_2))}{dz(z_1,z_2)})

DRIT https://arxiv.org/abs/1808.00948 (좌) MSGANs (우)

간단한 방법으로 model의 diversity를 크게 늘렸다는 의의가 있다.