자연어처리(NLP)/LLM(Large Language Model)

LLM fine-tuning 학습 데이터 전략 최적화

Hyen4110 2025. 2. 25. 23:03
반응형

LLM 파인튜닝을 위한 학습 데이터 전략은 "Curriculum Learning", "Data Selection Strategies", "Data Curation", "Active Learning", "Data Ordering" 분야등이 있다. 이러한 연구들은 모델의 학습 효율성과 성능을 향상시키기 위해 데이터를 어떻게 구성하고 제공할지에 초점을 맞춘다.

1. Curriculum Learning

 - 사람이 학습하는 방식처럼 쉬운 예제에서 어려운 예제로 점진적으로 학습하는 방법론

  • 난이도 기반 데이터 정렬: 쉬운 예제부터 어려운 예제로 순차적 학습
  • 모델이 초기에 기본 패턴을 파악한 후 점차 복잡한 패턴으로 확장
  • 로컬 미니마에 빠질 가능성 감소 및 더 효율적인 학습 촉진
  • 인간 학습 과정에서 쉬운 개념을 먼저 배우고 점차 어려운 개념으로 나아가는 방식을 모방한 것

대표 기법

 

  • Difficulty-based Ordering: 데이터의 난이도를 정량화하여 쉬운 데이터부터 학습
  • Self-paced Learning: 모델이 스스로 쉬운 데이터를 선택하여 학습으로, 학습할 데이터 샘플을 동적으로 조절하여 최적의 학습 순서를 찾음
  • Teacher-Student Curriculum: Teacher 모델이 Student 모델을 지도하는 방식

 

 

2. Data Selection Strategies

모델 학습을 위해 어떤 데이터를 선택(select) 해야 할지 결정하는 방법

  • 모든 데이터를 학습하는 것이 아니라, 가장 유용한 데이터를 선택하여 학습 효율을 높임.

대표 기법

  • Hard Example Mining: 모델이 예측하기 어려운 샘플을 선택하여 학습 강화
  • Diversity-based Selection: 다양한 패턴의 데이터를 고르게 선택하여 과적합 방지

 

3. Data Curation

- 모델 학습에 사용될 데이터를 선별하고 조직화하는 과정입니다.

  • 데이터 품질 평가: 노이즈가 적고 유용한 정보를 포함한 데이터 선별
  • 다양성 확보: 편향을 줄이고 일반화 성능을 높이기 위한 다양한 데이터 수집
  • 중복성 관리: 과도한 중복을 제거하여 특정 패턴에 과적합되는 것 방지

 

4. 활성 학습(Active Learning)

모델이 가장 불확실하거나 정보가 풍부한 데이터 포인트를 선택적으로 학습하는 방법론입니다.

  • 불확실성 샘플링: 모델이 가장 확신이 낮은 데이터 포인트를 우선적으로 학습
  • 다양성 샘플링: 기존 학습 데이터와 가장 다른 새로운 데이터 포인트 선택
  • 라벨링 비용 감소 및 학습 효율성 극대
  • 모든 데이터를 학습하는 것이 아니라, 정보성이 높은 샘플을 선택하여 학습 비용을 절감
  • 사람이 데이터 레이블을 정하는 경우, 최소한의 레이블링 비용으로 최대 성능을 얻을 수 있음

대표 기법

  • Uncertainty Sampling: 모델이 가장 예측을 불확실하게 하는 데이터 샘플을 선택하여 학습
  • Query-by-Committee: 여러 모델이 같은 샘플에 대해 다른 예측을 하는 경우, 해당 샘플을 학습 데이터로 선택

 

5. 데이터 증강을 위한 Student 모델 활용 전략

1) Teacher-Student Data Augmentation

  • 강력한 Teacher 모델 (GPT-4, Claude, Mistral 등)을 이용해 데이터 생성
  • 가벼운 Student 모델 (Llama, Mistral, Gemma 등)을 Fine-tuning

 

3) Synthetic Contrastive Learning (대조 학습을 활용한 증강)

  • "잘못된 답변"과 "정답"을 함께 학습시켜 성능 향상
  • Teacher 모델에게 정확한 답변 & 오류 포함 답변을 생성하도록 요청
  • 모델이 잘못된 데이터도 학습하면서 정답을 더 잘 구별하도록 학습
  • Student 모델이 "좋은 답변 vs 나쁜 답변"을 구별할 수 있도록 fine-tuning

질문:  "중소기업을 위한 가장 좋은 세금 감면 정책은?"
 - 정답:  "2023년 소기업 세금 감면 혜택 중 XX 정책이 가장 유리합니다."
 - 틀린 답변:  "모든 기업은 세금 감면을 받을 수 있습니다."
반응형