“Unlike recent language repre- sentation models, BERT is designed to pretrain deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers.”

BERT는 어떠한 특정 task를 해결하기 위해 고안된 모델이 아닌, “사전 훈련 언어모델”이다.

컴퓨터 비전에서 ImageNet 등의 대용량 데이터셋으로 pretrain된 모델들을 backbone으로 사용하는 것과 유사하다고 보인다.