Abstract

test-to-image synthesis

이전의 연구들에서 부족한 점 : input text에서 불충분하게 표현된 특징에 대한 요소 혹은 학습한 적 없는 ( unseen ) 요소 에 대한 일반화가 부족했다

ex)인구통계학적으로 적은 그룹의 얼굴

이 논문에서는

Introduction

Text-to-image 합성은 여러 분야에서 활용되고 있지만 compositionality라는 측면이 간과되고 있었다.

예시) “ He is wearing lipstick “ 그는 립스틱을 바르고있다. 이 문장의 (He, Lipstick) 이 attributes의 조합은 face dataset에서 underrepresented, 즉 충분하지 않게 존재한다.

이전의 방식들은 이러한 이미지를 정확히 합성하지 못한다. 아마도 overrepresented compositions에 overfitting되었기 때문일 것이다. 쉽게 말하면 데이터에 많이 존재하는 조합들만 잘 합성된다

overrepresented composition의 예시 : (”she”, “wearing lipstick”), (”he”, not “wearing lipstick”)

⇒ dataset 으로부터 얻게되는 biases / stereotypes

⇒ Severe Robustness and Fairness Issues 발생시킴

따라서 이러한 조합들을 그저 ‘암기'하는 것이 아니도록 해야한다.

이를 위해서

  1. 큰 datast 으로 pretrain된 CLIP모델을 이용한 Loss 사용