The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
이 논문에서 제안한 metric이다
https://github.com/richzhang/PerceptualSimilarity
PSNR과 SSIM은 너무 단순하고 얕아 인간의 지각에 대한 미묘한 차이를 설명하지 못한다고 주장한다.
L2 Loss 즉 Eucliden distance 와 관련된 PSNR은 픽셀간의 독립성 을 가정하기 때문에 이미지같은 구조화된 결과를 평가하기에는 충분하지 않다
예를 들어 blur 이미지의 경우 perceptual loss는 크나 L2 Loss 는 작은 경향을 갖는다
따라서 인간의 판단과 비슷한 방식으로 두개의 이미지의 유사함을 측정하는 perceptual distance를 원한다
(e.g. SSIM, MSSIM, FSIM, HDP-VDP)
인간의 유사성 판단 기준
고차원 이미지 구조에 의존적이다( high-order image structure )
맥락 의존적 ( context dependent) → 유사성의 감각이 많이 다를 수 있음
예를 들어 빨간원의 그림이 있다. 그러면 이것은 빨간 사각형에 가까운 것인지, 파란 원에 가까운 것인지
문맥에 따라 달라진다
distance metric으로 구성된 것이 아닐 수 있음
high level image classification task로 학습된 깊은 convolution network는 광범위한 representation space에서 매우 유용하다
예를 들어 VGG features는 Neural Style Transfer, Image superresolution, Conditional Image Synthesis에서 매우 유용하다
이 task들에서 VGG feature space에서 perceptual loss라는 distance로 측정해 활용한다.