논문 출처: https://arxiv.org/abs/1706.037620. Abstract오늘날 대부분의 시퀀스 변환 모델(sequence transduction models)은 인코더와 디코더를 포함하는 복잡한 RNN 또는 CNN 기법에 기반함본 논문은 attention 메커니즘에만 기반한 새로운 간단한 네트워크 아키텍쳐, Transformer를 제시함2가지 기계 번역 업무 실험 결과, 이 모델은 (1) 품질이 우수하고 (2) 병렬화 가능하여 훈련에 적은 시간 소요WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU 달성 (over 2 BLEU)WMT 2014 영어-프랑스어 번역 과제에서 8개의 GPU에서 3.5일간 훈련한 후 SOTA 달성(기존에 비해 모델 훈련 비용 절감)Transformer..