정보이론 information thoery 에서 entropy는 불확실성을 수치화 한 값이고, cross entropy 는 두 확률 분포의 차이를 계산한다. 이에 대해 자세히 알아본다
정보이론 (Information theory) : 최대한 많은 데이터를 매체에 저장하거나 채널을 통해 통신하기 위해 데이터를 정량화하는 응용 수학의 한 분야 [위키백과]
정보이론은 정보의 양을 어떻게 측정하고 전송하는지를 다루는 분야이다. 정보이론에서는 불확실성을 수치화하기 위해 엔트로피(Entropy)를 사용한다.
Entropy는 불확실성을 나타내는 값으로, 정보의 불확실성 정도를 나타내는 지표이다. 정보 엔트로피는 열역학에서 정의된 엔트로피를 개념적으로 확장한 것이다. 엔트로피는 확률 분포에서 얻은 정보량을 평균한 값으로 계산된다. 엔트로피가 낮을 수록 많은 정보가 주어진 것이다.
엔트로피는 최적의 전략 하에 정답을 맞추기 위해 필요한 질문 개수라고 표현되기도 한다. 엔트로피가 높다면 불확실성이 높은 것이기 때문에 정답을 맞추기 위한 질문이 많을 것이고, 엔트로피가 낮다면 불확실성이 낮은 것이기 때문에 정답을 맞추기 위한 질문이 적을 것이다.
예시 1) X는 0 혹은 1인데, X=0일 확률이 p이고 X=1일 확률이 1-p
두 가지 이상의 사건을 다루는 무작위 변수 X에 대한 엔트로피는 다음과 같이 일반화된다.

확률을 뜻하는 항과 정보량을 뜻하는 항의 곱이 더해지므로 기댓값으로 정의가 된다.
예시 2) 1이상 16이하의 자연수 중 하나를 선택. 무엇인지 맞추는 경우의 수. 각 숫자에 대한 확률은 1/16으로 같다.
$\log\frac{1}{p(x)} = -\log(p(x))$ 는 사건 x가 일어난 경우 얻는 정보량으로 해석될 수 있다.
예시 3) 주사위 던지기