LLM Pre-Training Objective
LLM의 Pre-training objective는 크게 아래 4가지 유형으로 나눌 수 있습니다.
1. Full Language Modeling
이미 주어진 token을 가지고 미래의 token들을 예측하도록 하는 auto-regressive langue model objective입니다.
2. Prefix Language Modeling
prefix는 random하게 선택되고, 남아있는 target token 만으로 loss를 계산합니다.
3. Masked Language Modeling
토큰 또는 연속 토큰들이 random하게 마스킹 처리 되었을 때, 모델은 과거와 미래의 컨텍스트를 가지고 마스킹된 토큰을 예측하도록 학습됩니다.
4. Unified Language Modeling
위의 3가지가 모두 결합된 training objective로, 여기서의 masked language modeling에서는 attention이 양방향이 아닌 단방향이라는 점입니다.
참고
'자연어처리(NLP) > LLM(Large Language Model)' 카테고리의 다른 글
[LLM][기초] LLM의 Layer Normalization (PreNorm, DeepNorm) (0) | 2024.09.11 |
---|---|
[LLM][기초] LLM의 Attention (self, cross, sparse flash) (0) | 2024.09.11 |
[LLM][기초] LLM의 Positional Encoding (absolute, relative, learned) (0) | 2024.09.11 |
댓글