자연어처리(NLP)/LLM(Large Language Model)

[LLM][기초] LLM의 Layer Normalization (PreNorm, DeepNorm)

Hyen4110 2024. 9. 11. 20:23

Layer Normalization이란?

Layer Normalization은 트랜스포머에서 각 layer의 입력값을 정규화함으로써 학습 중인 파라미터가 빠르고 안정적으로 수렴하도록 해주는 방법입니다.  LLM에서는 기본적인 Layer Norm과 RMSNorm, 외에 pre-layer normalization을 멀티 헤드 어텐션 전에 적용합니다. 그 외에 LLM에서 사용하는 normalization은 PreNorm과 DeepNorm이 있습니다.

 

1) PreNorm : LLM에서 학습의 안정성을 높이는 방법으로 알려짐

2) DeepNorm : pre-norm에서 gradient가 증가하는 이슈를 수정한 방법론

 

 

참고

https://arxiv.org/pdf/2307.06435