반응형 bertscore1 생성형 텍스트 평가 지표 ROUGE, BLEU, BLEURT 1. ROUGE와 BLEU의 차이?1) BLEU주로 기계번역의 품질을 평가하기 위해 개발됨모델이 생성한 후보문의 n-gram들이 참조문에 얼마나 포함되어 있는지 측정합니다.기준점은 후보문(모델 생성 텍스트)이고, 그 중에서 참조문(정답)에 있는 것들의 비율을 계산합니다.즉, 후보문에 있는 단어/구절 중 몇 개가 참조문에도 있는지 측정합니다. 정밀도(Precision) 기반: 생성된 문장이 참조 문장과 얼마나 유사한지 측정 짧은 출력에 부당하게 높은 점수가 부여되는 것을 방지하기 위해 간결성 패널티(Brevity Penalty)를 적용 2) ROUGE주로 요약 태스크의 품질을 평가하기위해 기발됨참조문의 n-gram들이 모델이 생성한 후보문에 얼마나 포함되어 있는지 측정합니다.기준점은 참조문(정답)이고, .. 2025. 3. 20. 이전 1 다음 반응형