Improving Image Restoration by Revisiting Global Information Aggregation (ECCV 2022)

이 논문은 어떠한 복원 모델이나 학습 방식에 대한 논문이 아니라 inference에서의 하나의 스킬을 제안하는 논문이다.

Abstract

이미지 복원 태스크에서 보편적으로 GPU memory의 문제로 training은 전체 이미지에서 crop한 patch이미지로, test에서는 전체 이미지로 진행하기 때문에 global operation (e.g. Global average pooling)의 동작이 training시와 inference시에 다르고, 그로 인해 복원 성능이 감소한다는 것이 이 논문이 지적하는 문제점이다.

⇒ train-test inconsistency

이를 줄여서 test-time performance를 향상시키기 위해 Test-time Local Converter ( TLC )라는 단순한 방법을 제안한다. TLC는 inference 시에 global operations를 local의 것으로 전환한다 그로 인해 TLC는 전체 이미지가 아닌 local 영역 내의 features를 aggregate할 수 있다.

이 모듈은 다양한 global modules에 적용할 수 있고 연산량은 크게 늘어나지 않는다.

또한 어떠한 fine-tuning없이 다양한 state-of-the-art 방법들에 바로 적용이 가능하다.

Restomer이라는 모델에 이 방법을 적용했을 떄 GoPro dataset에서 PSNR 32.92 dB → 33.58 dB로 성능이 향상되었다.

Introduction

introduction에서는 여러 SOTA 복원 모델들을 소개하고 복원모델들은 보통 patch들로 학습하고 full-resolution images로 inference하며, 이는 train과 test 모두에서 resize하는 high-level vision tasks와는 다르다고 말한다. low-level vision task에서는 image의 detail 보존을 위해 resize는 기피되는 방식이다.

ex) MPRNet [ MPRNet(CVPR 2021) ]: (256, 256) size의 patch로 학습 → GoPro 데이터셋의 (720, 1280)크기의 야가 7%밖에 되지 않는다.

이 경우 모델이 오직 이미지의 local part만을 학습하게 되고 full-resolution image의 global clues를 인코딩하기에는 어려울 수 있다. → sub-optimal performance

따라서 이 논문에서는 global information aggregation 을 다시 살펴본다.

이들은 global average pooled features를 분석해 entire-image-based features가 patch-based features와 매우 다르다는 것을 찾아냈다. ( 아래 그래프)

Untitled

이와 같은 global information의 train시와 test 시의 shift는 모델의 성능에 안좋은 영향을 미친다.

이를 해결하기 위해 Test-Time Local Converter (TLC)를 제안한 것이고 이는 training과 inference 사이의 information aggregation의 차이를 메꿔준다.

Untitled