2016년 6월에 발표된 함수이지만 최근 transformer계열 모델들에서 ReLU 대신 거의 대부분 사용되는 함수이다.
$$
GELU(x) = xP(X\leq x)=x\Phi(x) = x \cdot\frac{1}{2}[a+erf(x/\sqrt{2})]=0.5x(1+tanh[\sqrt{2/\pi}(x+0.044715x^3)]) \approx x\sigma(1.702x)
$$

- ReLU의 smoothing version이라고 볼 수 있다. ( $\sigma → 0$이면 ReLU라고 논문에 명시)
- 아래의 swish, mish 함수와 유사하게 보인다.


- bounded below
- non-monotonic
- unbounded above
- smooth
- 모든 점에서 미분 가능
- x가 다른 입력에 비해 얼마나 큰지에 대한 비율로 gating → 확률적 해석, 미분 가능 형태