Carnegie Mellon University & Facebook AI Research

발표자료

NonlocalBlock.pptx


Introduction

capturing long-range dependencies : deep neural network에서 핵심적으로 중요한 부분

sequential data ( speech, language )에 대해서는 recurrent operations(LSTM같은거)가 주요 솔루션.

이미지데이터에 대해서는 conv연산을 깊게 쌓아서 큰 receptive field를 이룸으로써 long rage dependencies가 모델링된다.

convolution / recurrent operations 모두 local neighborhood를 처리하는 연산( 시간 혹은 공간영역에서 )

그래서 long range dependencies는 이 연산들이 반복해서 적용되는것으로만 포착할 수 있었다.

반복연산 → 비효율적 & 최적화의 어려움 & 모델링시 multi-hop dependency 발생

논새하이한제느하새 운로 -ocnallcaalepataion은 피쳐맵의 모든 영역의 피쳐를 weighted sum형식으로 더해준다

특히 비디오 분류에서 3D / 2D conv보다 좋은 성능을 보였다

object detection / segmentation / pose estimation에도 적용시 성능이 전반적으로 향상되어 이 연산이 일반성을 가짐도 증명한다