Emerging Properties in Self-Supervised Vision Transformers


<aside> 💡 proposed DINO(self-distillation with no labels)는 unlabeled data로부터 self-supervised learning, self-knowledge distillation을 통해 객체의 segmentation 영역을 찾아낸다.

</aside>

Introduction

Transformer (Attention is all you need)논문이 2017년 발표되어 NLP를 주도했고 ViT논문이 2021년 ICLR에서 발표되면서 vision 분야에도 영향을 미치기 시작했다. 그러나 왜 잘 되는지 이유가 뚜렷하지 않고, 피쳐들이 특별한 특성을 담고있지 않기 때문에 Transformer의 성능이 BERT 나 GPT같은 self-supervised pretraining에서 온 것인지 저자들은 알고 싶었다고 한다.

self supervised pretraining : pretext tasks 생성해 supervised보다 풍부한 learning signal 제공

따라서 self supervised learning 이 ViT에 어떤 영향을 미치는지 연구하였다.

supervised ViT와 convnets에서 나타나지 않는 self-supervised ViT의 특별한 특성:

  1. scene layout을 포함한다. (object boundaries) 이 정보는 마지막 블럭의 self attention modules에서 바로 접근 가능했다.
  2. basic k-NN과 잘 작동한다. (finetuning, linear classifier, augmentation 없이)

1번은 self sueprvised 방식들에서 공통적으로 나타났으나 2번은 DINO의 momentum encoder와 multi-crop augmentation을 더했을 때만 나타나는 특별한 특성이라고 한다.

DINO

framework

Untitled

Untitled

Untitled

Untitled