The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

이 논문에서 제안한 metric이다

https://github.com/richzhang/PerceptualSimilarity

PSNR과 SSIM은 너무 단순하고 얕아 인간의 지각에 대한 미묘한 차이를 설명하지 못한다고 주장한다.

L2 Loss 즉 Eucliden distance 와 관련된 PSNR은 픽셀간의 독립성 을 가정하기 때문에 이미지같은 구조화된 결과를 평가하기에는 충분하지 않다

예를 들어 blur 이미지의 경우 perceptual loss는 크나 L2 Loss 는 작은 경향을 갖는다

따라서 인간의 판단과 비슷한 방식으로 두개의 이미지의 유사함을 측정하는 perceptual distance를 원한다

(e.g. SSIM, MSSIM, FSIM, HDP-VDP)

인간의 유사성 판단 기준

  1. 고차원 이미지 구조에 의존적이다( high-order image structure )

  2. 맥락 의존적 ( context dependent) → 유사성의 감각이 많이 다를 수 있음

    예를 들어 빨간원의 그림이 있다. 그러면 이것은 빨간 사각형에 가까운 것인지, 파란 원에 가까운 것인지

    문맥에 따라 달라진다

  3. distance metric으로 구성된 것이 아닐 수 있음

high level image classification task로 학습된 깊은 convolution network는 광범위한 representation space에서 매우 유용하다

예를 들어 VGG features는 Neural Style Transfer, Image superresolution, Conditional Image Synthesis에서 매우 유용하다

이 task들에서 VGG feature space에서 perceptual loss라는 distance로 측정해 활용한다.