Emerging Properties in Self-Supervised Vision Transformers
<aside> 💡 proposed DINO(self-distillation with no labels)는 unlabeled data로부터 self-supervised learning, self-knowledge distillation을 통해 객체의 segmentation 영역을 찾아낸다.
</aside>
Transformer (Attention is all you need)논문이 2017년 발표되어 NLP를 주도했고 ViT논문이 2021년 ICLR에서 발표되면서 vision 분야에도 영향을 미치기 시작했다. 그러나 왜 잘 되는지 이유가 뚜렷하지 않고, 피쳐들이 특별한 특성을 담고있지 않기 때문에 Transformer의 성능이 BERT 나 GPT같은 self-supervised pretraining에서 온 것인지 저자들은 알고 싶었다고 한다.
self supervised pretraining : pretext tasks 생성해 supervised보다 풍부한 learning signal 제공
따라서 self supervised learning 이 ViT에 어떤 영향을 미치는지 연구하였다.
supervised ViT와 convnets에서 나타나지 않는 self-supervised ViT의 특별한 특성:
1번은 self sueprvised 방식들에서 공통적으로 나타났으나 2번은 DINO의 momentum encoder와 multi-crop augmentation을 더했을 때만 나타나는 특별한 특성이라고 한다.
framework



