Probabilistic Model (확률모형)

*random variable : 확률 변수

확률 모형과 함께 등장하는 모수 추정, MLE, Log likelihood 등의 용어들을 정리해봅니다

확률모형이란

확률 모형은 수집된 / 관측된 데이터의 발생 확률 혹은 분포를 잘 근사하는 모형입니다.
Probabilistic model(확률모형), Statistical model(통계모형), Probability distribution(확률분포)
$p(x|\theta), \;\; p(x;\theta), \;\;p_\theta(x), \;\; p(x)$
$\theta$ 는 확률 모형을 정의하는 parameter(모수) 입니다. (descriptive measure 요약 통계량이기도 하다)

데이터의 이상적인 실제 확률 분포 (모집단의 분포) 가 $p(x|\theta^*)$이라면 이 분포 내에서 X를 수집한다고 이해할 수 있다.
모수를 추정한다 함은 $p(x|\theta^*)$ 를 최대한 잘 근사하는 수학적 모형을 찾는 것이다.
근사화된 모델을 사용하는 이유는 당연하게도 실제 데이터의 확률이나 실제 파라미터 $\theta^*$ 를 정확히 알 수는 없기 때문이다.
즉, 임의의 확률 모형 $p(x)$를 가정하고, 그 모형이 데이터를 잘 설명할 파라미터 $\theta$ 를 찾는 과정이 **모수 추정**이다.
만약 정규 분포를 가정했다면, $p(x|\theta) = N(x | \mu, \sigma^2), \; \theta = [\mu, \; \sigma]$ 에서 $\theta$의 값을 찾는 것이다.
- 여기서 $\theta$ 는 식에서 볼 수 있듯 평균과 표준편차이다.
- 정규분포라는 가정 하에 최적의 평균과 표준편차 찾기

그래서 모수추정을, 그니까 데이터를 잘 설명하는 모형을 어떻게 만드느냐

그 모형 안에서 관측된 데이터 $X=\{x_1, x_2, x_3, …, x_n\}$ 의 발생확률이 전체적으로 최대로 만드는 것

⇒ 이것이 MLE다.

$$ \hat{\theta} = \underset{\theta}{\argmax}\;L(\theta)=\underset{\theta}{\argmax}\;p(X|\theta) $$