2016년 6월에 발표된 함수이지만 최근 transformer계열 모델들에서 ReLU 대신 거의 대부분 사용되는 함수이다.

$$ GELU(x) = xP(X\leq x)=x\Phi(x) = x \cdot\frac{1}{2}[a+erf(x/\sqrt{2})]=0.5x(1+tanh[\sqrt{2/\pi}(x+0.044715x^3)]) \approx x\sigma(1.702x) $$

Untitled

Untitled

Untitled