논문리뷰 ·

논문리뷰: Attention Is All You Need


요약

  • RNN 없이 Self-Attention만으로 시퀀스 모델링
  • 병렬화가 쉬워 학습 속도 향상
  • 번역 성능(SOTA) 달성

핵심 아이디어

  • Multi-Head Attention으로 다양한 관계를 병렬로 학습
  • Positional Encoding으로 순서 정보 보존
  • Residual + LayerNorm 안정화

인사이트

  • 긴 시퀀스에서도 글로벌 문맥을 효율적으로 처리
  • 이후 모든 LLM의 기반 구조로 확장

참고