Layer Normalization이란?
Layer Normalization은 트랜스포머에서 각 layer의 입력값을 정규화함으로써 학습 중인 파라미터가 빠르고 안정적으로 수렴하도록 해주는 방법입니다. LLM에서는 기본적인 Layer Norm과 RMSNorm, 외에 pre-layer normalization을 멀티 헤드 어텐션 전에 적용합니다. 그 외에 LLM에서 사용하는 normalization은 PreNorm과 DeepNorm이 있습니다.
1) PreNorm : LLM에서 학습의 안정성을 높이는 방법으로 알려짐
2) DeepNorm : pre-norm에서 gradient가 증가하는 이슈를 수정한 방법론
참고
'자연어처리(NLP) > LLM(Large Language Model)' 카테고리의 다른 글
[LLM][기초] LLM의 Pre-Training Objective (Full, Prefix, Masked, Unified) (0) | 2024.09.11 |
---|---|
[LLM][기초] LLM의 Attention (self, cross, sparse flash) (0) | 2024.09.11 |
[LLM][기초] LLM의 Positional Encoding (absolute, relative, learned) (0) | 2024.09.11 |
댓글