[LLM][기초] LLM의 Layer Normalization (PreNorm, DeepNorm)

Layer Normalization이란?

Layer Normalization은 트랜스포머에서 각 layer의 입력값을 정규화함으로써 학습 중인 파라미터가 빠르고 안정적으로 수렴하도록 해주는 방법입니다. LLM에서는 기본적인 Layer Norm과 RMSNorm, 외에 pre-layer normalization을 멀티 헤드 어텐션 전에 적용합니다. 그 외에 LLM에서 사용하는 normalization은 PreNorm과 DeepNorm이 있습니다.

1) PreNorm : LLM에서 학습의 안정성을 높이는 방법으로 알려짐

2) DeepNorm : pre-norm에서 gradient가 증가하는 이슈를 수정한 방법론

참고

https://arxiv.org/pdf/2307.06435

저작자표시

'자연어처리(NLP) > LLM(Large Language Model)' 카테고리의 다른 글

[CIT/Continual Instruction Tuning] Task-Incremental Tuning① (PAPT, Continual-T0, ConTinTin, SLM) (0)	2025.02.24
[Continual Learning] Continual Instruction Tuning (CIT) (0)	2025.02.24
[LLM][기초] LLM의 Pre-Training Objective (Full, Prefix, Masked, Unified) (0)	2024.09.11
[LLM][기초] LLM의 Attention (self, cross, sparse flash) (0)	2024.09.11
[LLM][기초] LLM의 Positional Encoding (absolute, relative, learned) (0)	2024.09.11

Hyen4110

[LLM][기초] LLM의 Layer Normalization (PreNorm, DeepNorm)

Layer Normalization이란?

'자연어처리(NLP) > LLM(Large Language Model)' 카테고리의 다른 글

댓글

티스토리툴바

[LLM][기초] LLM의 Layer Normalization (PreNorm, DeepNorm)

Layer Normalization이란?

'자연어처리(NLP) > LLM(Large Language Model)' 카테고리의 다른 글

관련글

댓글

티스토리툴바