노트 · Feb 27, 2026 노트: Transformer 구조 한눈에 보기 구조 요약 Encoder: Self-Attention + FFN 반복 Decoder: Masked Self-Attention → Cross-Attention → FFN 체크포인트 Masked attention으로 미래 토큰 차단 Cross-attention으로 인코더 정보 결합 다음에 볼 것 LayerNorm 위치(Pre/Post) Attention Scaling 이유