[SENet] Squeeze-and-Excitation Networks ( CVPR 2018 )

Abstract

CNN 의 convolution 연산 : local receptive field 내에서 spatial and channel-wise 정보들을 함께 fusing해 informative features를 추출

이 논문 이전의 다양한 접근에서 spatial encoding을 향상시키는 것의 장점에 대해 보여줬지만 (현재는 channel attention에 대한 논문이 많이 나오고 있다 )이 논문에서는 채널간의 관계에 집중해 새로운 아키텍쳐 유닛인 Squeeze-and-Excitation block ( SE block )을 제안한다

SE block은 채널간의 interdependencies를 명확히 모델링함으로써 chnnel-wise 피쳐들을 recalibrate 한다

이 block을 쌓아 어려운 데이터셋들을 잘 일바노하하는 아키텍쳐를 만들 수 있다

작은 computational cost의 추가만으로 SOTA deep architecture의 성능을 높였다

Introduction

conv레이어들의 필터들은 input channels 들 사이에서 local spatial connectivity를 학습한다

<aside> 💡 convolution filter들은 해당 receptivd field내에 spatial한 정보와 channel-wise정보를 함께 fusing한 informative combinations로 예측가능하다

</aside>

또한 CNN은 깊을수록 강력한 image descriptions로 작동

최근 spatial correlations를 추가적 supervision없이 더 잘 감지할 수 있도록 메커니즘 연구가 많이 있었으며 그 중 하나가 Inception Architecture다

이 논문에서는 channel relationship에 집중한 아키텍쳐 디자인을 제안하며 SEblock을 제안한다

Our goal is to improve the rep- resentational power of a network by explicitly modelling the interdependencies between the channels of its convolu- tional features.

feature recalibration을 통해 global information을 사용하도록 학습 ( informative features는 강조하고 less useful한 features는 억제 ) → 피쳐맵 채널간의 상호연관성을 명확히 모델링 → 네트워크의 representational power 향상

SENet 장점

아키텍쳐의 어떠한 depth에든 끼워넣을 수 있다

그러나 레이어의 depth별 역할이 다르기 때문에 주의가 필요하다 (section6.4에 자세한 설명 있음)
- early layer : 이 레이어들은 피쳐채널들의 중요성을 클래스들간에 공유하기 때문에 (i.e. 2, 3, 채널이 class 0, 1, 2모두에게 중요할 수 있음 ) ( 좀 더 일반화된 피쳐들 ) SEblock을 여기에 끼워넣으면 클래스에 관계 없이 informative features를 강조하기 때문에 shared lower level represetation의 quality 강화
- later layer : 이 레이어들은 피쳐 채널들의 중요성이 클래스별로 다른 경향을 보인다. SEblock을 여기에 끼워넣으면 좀 더 specialised하게 된다 input들에게 class specific하게 대응한다.
- 그러나 거의 마지막에 가까운 레이어에서의 SEBlock은 피쳐 recalibration에 거의 필요하지 않는다고 한다( fig 5 의 실험 )

1 - 2 . 따라서 현존하는 SOTA 모델들에 바로 적용이 가능하다 → 기존 모듈 강화의 역할

light weight를 가지는 block으로, 성능향상에 비해 매우 적은 모델 복잡도와 계산 복잡도 만이 더해진다

Abstract

Introduction

SENet 장점

Squeeze-and-Excitation Blocks