[좀 더 깔끔하게 정리 필요]CNN의 inductive bias ( + 머신러닝에서의 bias와 variance )

CVPR 2022의 “A ConvNet for the 2020s” 논문 (링크) 을 보면, CNN은 그것의 inductive bias를 기반으로 좋은 성능을 보여왔다고 언급한다. 이에 대해서 자세히 알아보고자 한다.

inductive bias를 그대로 해석하면, “귀납적 편향”이다.

용어의 의미로부터 차근차근 이해해보자

Bias and Variance

머신러닝 / 딥러닝에서 bias와 variance는 무엇일까?

Untitled

그림처럼 $f(x)$, $\hat{f}(x)$, $E[\hat{f}(x)]$ 를 정의해보자.

bias는 한마디로 예측값과 실제 정답과의 차이이다.

즉 예측값과 실제 정답이 얼마나 떨어져있는가를 나타낸다.

보통 다음 식에 절댓값을 취하거나 제곱을 하는 등으로 표현한다.

$$ Bias[\hat{f}(x)] = E[\hat{f}(x)]-f(x) $$

variance는 다른 training dataset에 대해 예측값이 얼만큼 변화할 수 있느냐에 대한 Quantity의 개념이다. ( 양적인 개념 )

단순하게 생각하면 분산의 원래 의미처럼 예측값이 얼만큼 퍼져서 다양하게 출력될 수 있는지를 의미한다고 할 수 있다.

모델의 “flexibility”를 의미하기도 한다.

$$ Var[\hat{f}(x)] = E[(\hat{f}(x)-E(\hat{f}(x))^2] = E[\hat{f}(x)^2]-E[\hat{f}(x)]^2 $$

식은 원래 우리가 알고 있는 것과 같이 예측값의 평균과 예측값 ( 평균과 변량 ) 의 차이(편차)를 제곱해 나타낸 것이다.