ImageNet : computer vision 모델들의 성능을 평가하는데에 중요한 데이터셋
보통 모델 각각 맞춤형의 training scheme을 사용하고 전문가에 의해 디자인/조정하는 것이 일반적이다
이 논문에서는 어떠한 backbone이든 ImageNet에서 학습하는 통합된 방법을 제안, USI라고 이름지었다
USI는 knowledge distillation과 modern tricks에 기반하며 다른 모델 사이 조정이나 하이퍼파라미터 튜닝이 필요하지 않다. 또한 training time면에서도 효율적이다
USI를 CNN, Transformers, Mobile-oriented and MLP-only까지 다양한 모델에 적용해보았고 모든 모델 테스트에서 USI가 기존 SOTA결과를 넘어섰다.
USI는 어떠한 backbone이던지 적용이 가능하고 top result를 가져오도록 학습하기 때문에 methodical comparison을 가능하게하고 speed-accuracy Pareto curve를 따라 가장 효율적인 backbone식별이 가능하다
왜 ImageNet이냐
ImageNet은 현대 딥러닝의 발전의 중심으로, 컴퓨터비전 모델 학습의 메인 데이터셋이다.
ImageNet에서의 accuracy를 측정하는 것이 실제 다양한 downtream task에서의 성능을 예측할 수 있다는 것이 밝혀져있다.
그렇지만 training on ImageNet : ongoing problem
학습을 잘 시키기 위한 방법들
시대의 획을 긋는, 영향력이 큰, 연구인 AlexNet이후로 결과를 개선하기 위한 새로운 training tricks, regularizations, enhancements 들이 계속해서 제안되어옴