U-Net: Convolutional Networks for Biomedical Image Segmentation

Abstract

Introduction

Biomedical tasks : output이 classification 뿐 아닌 위치정보 포함해야하며 대부분의 상황에서 training image 수가 적다. 또한 같은 클래스 객체들이 접촉해 있는 경우가 많음

⇒ 단순 classification만을 수행하는 기존의 CNN으로는 부족

이 논문 이전에 biomedical image processing을 위해 localization 정보를 얻는데에 sliding window를 사용해 모든 픽셀의 크래스를 예측하려는 시도가 있었다.

sliding window의 장점

  1. localization 가능
  2. patch data를 사용하기 때문에 data가 많다.

sliding window의 단점

Untitled

  1. **redundancy of over lapping patch(겹치는 패치의 불필요한 중복성)**위의 사진에서 보이는 것과 같이 patch를 옮기면서 중복이 발생하게 된다.
  2. 이 중복된 부분은 이미 학습된(검증된) 부분을 다시 학습하는 것이므로 똑같은 일을 반복하는 것과 같다. 즉, 불필요한 중복에 대한 내용도 학습하기 때문에 속도도 느리고 시간도 오래 걸린다.
  3. trade-off between localization accuracy and use of context : patch 사이즈가 크면, max pooling이 더 많이 적용 되고 정확한 위치 정보를 알기에는 어렵지만, 더 넓은 범위의 이미지를 보기 때문에 context 인식에는 효과를 가진다.