올해 CVPR에서 google research에서 발표한 논문입니다.

대학원 수업 발표도 해야해서 related work까지 조금 길게 정리했습니다. 하핳


Abstract

semantic segmentation 라벨을 생성하는데에는 시간과 돈이 많이 필요하다.

따라서 semantic segmentation 효율을 높이기 위해 denoising autoencoder를 다시 들여다보면서 Unet을 pretrain하기 위한 denoising objective의 사용을 연구하였다.

semantic segmentation 모델로 Transformer-based Unet을 사용하였고, 이 모델은 denoising autoencoder로써 pretrain된 후 적은 수의 labeled examples로 semantic segmentation을 위해 finetuning되었다.

⇒ 적은 수의 데이터로 효율적으로 성능을 내기 위한 논문임.

denoising으로 pretrain하고 finetuning한 성능이 random initialization으로 semantic segmentation training한 성능을 능가하였고, ImageNet-21k로 pretrain후 finetuning한 성능도 능가하였다.

핵심은 denoising pretraining이 decoder를 pretrain할 수 있는 능력이다.

⇒ 보통 autoencoder는 pretrain후 encoder를 활용하기 위한 목적으로 쓰임

이렇게 제안하는 pretraining방식을 Decoder Denoising Pretraining(DDeP)라고 정의하였다.

DDeP의 순서

  1. encoder를 supervised learning으로 i

DDeP는 label-efficient semantic segmentation에서 SOTA 성능을 달성했다.

실험 datasets : CityScapes, Pascal Context, ADE20K

1. Introduction

pixel-level label 생성에 대한 어려움