자연어처리(NLP)/LLM(Large Language Model)

[LLM][기초] LLM의 Pre-Training Objective (Full, Prefix, Masked, Unified)

Hyen4110 2024. 9. 11. 20:37

LLM Pre-Training Objective

LLM의 Pre-training objective는 크게 아래 4가지 유형으로 나눌 수 있습니다.

 

1. Full Language Modeling

이미 주어진 token을 가지고 미래의 token들을 예측하도록 하는 auto-regressive langue model objective입니다.

 

2. Prefix Language Modeling

prefix는 random하게 선택되고, 남아있는 target token 만으로 loss를 계산합니다.

 

3. Masked Language Modeling

토큰 또는 연속 토큰들이 random하게 마스킹 처리 되었을 때, 모델은 과거와 미래의 컨텍스트를 가지고 마스킹된 토큰을 예측하도록 학습됩니다.

 

4. Unified Language Modeling

위의 3가지가 모두 결합된 training objective로, 여기서의 masked language modeling에서는 attention이 양방향이 아닌 단방향이라는 점입니다.

 

참고 

https://arxiv.org/pdf/2307.06435