논문리뷰 ·
논문리뷰: Attention Is All You Need
요약
- RNN 없이 Self-Attention만으로 시퀀스 모델링
- 병렬화가 쉬워 학습 속도 향상
- 번역 성능(SOTA) 달성
핵심 아이디어
- Multi-Head Attention으로 다양한 관계를 병렬로 학습
- Positional Encoding으로 순서 정보 보존
- Residual + LayerNorm 안정화
인사이트
- 긴 시퀀스에서도 글로벌 문맥을 효율적으로 처리
- 이후 모든 LLM의 기반 구조로 확장