U-Net: Convolutional Networks for Biomedical Image Segmentation
Abstract
- 존재하는 annotated samples를 더 효율적으로 사용하여 적극적인 data augmentation 활용에 의존하는 training 방법과 네트워크를 소개한다
- 이 아키텍쳐는 context를 포착하기 위한 contracting path와 정확한 localization을 가능하게 하는 대칭적인 expanding path로 이루어져 있다.
- 우리는 이런 네트워크가 매우 적은 이미지들로도 end-to-end로 학습될 수 있고, 이전의 ISBI challenge for segmentation of neuronal structures in electron microscopic stacks에서의 최고의 방법(sliding window convolutional network)보다 더 뛰어난 성능을 보인다는 것을 보여준다.
- transmitted light microscopy images(phase contrast and DIC)에서 학습된 같은 네트워크를 사용하여서 우리는 2015 ISBI cell tracking challenge에서 이 카테고리들에서 큰 차이로 우승했다.
- 또한, 이 네트워크는 빠르다. 512x512 이미지 task에서 최근의 GPU로 1초보다 덜 걸린다.
Introduction
Biomedical tasks : output이 classification 뿐 아닌 위치정보 포함해야하며 대부분의 상황에서 training image 수가 적다. 또한 같은 클래스 객체들이 접촉해 있는 경우가 많음
⇒ 단순 classification만을 수행하는 기존의 CNN으로는 부족
이 논문 이전에 biomedical image processing을 위해 localization 정보를 얻는데에 sliding window를 사용해 모든 픽셀의 크래스를 예측하려는 시도가 있었다.
sliding window의 장점
- localization 가능
- patch data를 사용하기 때문에 data가 많다.
sliding window의 단점

- **redundancy of over lapping patch(겹치는 패치의 불필요한 중복성)**위의 사진에서 보이는 것과 같이 patch를 옮기면서 중복이 발생하게 된다.
- 이 중복된 부분은 이미 학습된(검증된) 부분을 다시 학습하는 것이므로 똑같은 일을 반복하는 것과 같다. 즉, 불필요한 중복에 대한 내용도 학습하기 때문에 속도도 느리고 시간도 오래 걸린다.
- trade-off between localization accuracy and use of context : patch 사이즈가 크면, max pooling이 더 많이 적용 되고 정확한 위치 정보를 알기에는 어렵지만, 더 넓은 범위의 이미지를 보기 때문에 context 인식에는 효과를 가진다.