자연어처리(NLP)/LLM(Large Language Model)
[LLM][기초] LLM의 Layer Normalization (PreNorm, DeepNorm)
Hyen4110
2024. 9. 11. 20:23
Layer Normalization이란?
Layer Normalization은 트랜스포머에서 각 layer의 입력값을 정규화함으로써 학습 중인 파라미터가 빠르고 안정적으로 수렴하도록 해주는 방법입니다. LLM에서는 기본적인 Layer Norm과 RMSNorm, 외에 pre-layer normalization을 멀티 헤드 어텐션 전에 적용합니다. 그 외에 LLM에서 사용하는 normalization은 PreNorm과 DeepNorm이 있습니다.
1) PreNorm : LLM에서 학습의 안정성을 높이는 방법으로 알려짐
2) DeepNorm : pre-norm에서 gradient가 증가하는 이슈를 수정한 방법론
참고