Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021)

읽기 전 보면 좋은 자료 / 참고자료

Swin Transformer github : https://github.com/microsoft/Swin-Transformer

Swin Transformer paper : https://arxiv.org/pdf/2103.14030.pdf

https://www.youtube.com/watch?v=2lZvuU_IIMA

Abstract

ViT와 같이 transformer구조를 computer vision task의 general purpose backbone 으로 쓰일 수 있게 하는 것이 목적인 논문이다.

nlp와 vision의 도메인 차이에서 발생하는 문제를 해결하기 위해 hierarchical transformer를 구성하였는데, 이는 shifted window 에서 연산하는 방식으로 가능했다. 이는 non overlapping local window를 사용하며, window간의 connection을 가능하게 한다. 또한 Swin Transformer는 다양한 스케일을 모델링하는 데에 있어 유연하고 이미지 크기에 대해 linear한 computational complexity를 가진다.

이러한 디자인은 all-MLP 아키텍쳐에 비해 다양한 이점을 가진다.

Introduction

Transformer의 NLP에서의 좋은 성능을 image로 가져오는 데에 있어 큰 어려움은 도메인의 차이에 있다.

NLP에서는 tokens가 기본 요소이지만 시각적 요소들은 스케일에 따라 형태가 다양하고 이 문제는 object detection 같은 task의 경우에 더 도드라진다.

이미 존재하는 transformer기반 이미지 모델들은 토큰들이 고정된 스케일에서 적용되고 비전에 적합하지 않다. 또한 해상도가 커짐에 따라 계산 복잡도가 quadratic하게 증가한다. 이를 극복하기 위해 Swin transformer에서는 hierarchical feature maps를 통해 계산복잡도를 linear하게 증가하도록 했다.

Proposed method

Swin transformer(Swin-T)의 전체적인 구조는 다음과 같다

Untitled

stage 별로 위에 써져있는 식(노란색)은 VGG와 같은 기존 CNN 모델에서 나타내는 피쳐의 해상도와 같은 표현이다. hierarchical 구조라는 말과 같이 해상도는 점점 줄어들고, 채널 수는 점점 늘어난다. 마치 VGG, ResNet같은 느낌이 난다.

Patch Partition (초록색)