Transformer : Attention Is All You Need

참고자료들

Introduction

기존 NLP에서 SOTA로 자리잡고 있던 RNN류의 모듈들

Untitled

RNN의 단점

⇒ 연속적 연산의 한계

이러한 단점을 극복하기 위해

입출력 sequence에서 서로 거리에 상관없는 dependency를 허용하는 Attnetion mechanism이 중요해졌고,
recurrent network와 attention mechanism을 함께 사용하던 이전 연구와 달리 Transformer는 오직 attention mechanism에 전적으로 의존하는 구조이다.
Transformer는 병렬화에 유리하여 8개의 P100으로 12시간 학습만에 번역 task에 대해 SOTA를 달성했다고 한다.
Transformer가 사용한 attention mechanism은 intra-attention이라고도 불리는 self-attention이다. 한 시퀀스의 representation을 계산하기 위해 단일 시퀀스의 서로 다른 위치들을 관련시킨다. ( 독해 / 생성요약 / 문맥추론 / task 비의존적 문장표현 등 다양한 task에서 성공적으로 사용 )