노트 ·

노트: Transformer 구조 한눈에 보기


구조 요약

  • Encoder: Self-Attention + FFN 반복
  • Decoder: Masked Self-Attention → Cross-Attention → FFN

체크포인트

  • Masked attention으로 미래 토큰 차단
  • Cross-attention으로 인코더 정보 결합

다음에 볼 것

  • LayerNorm 위치(Pre/Post)
  • Attention Scaling 이유