[LLM] LLM 어플리케이션을 위한 선택 : RAG vs Finetuning

LLM 어플리케이션을 구축할 때 RAG(Retrieval-Augmented Generation)와 fine-tuning 중에 어떤것을 선택하는것이 효과적일까요?

아래 Medium 글을 참고하여 작성하였습니다.

https://medium.com/data-science/rag-vs-finetuning-which-is-the-best-tool-to-boost-your-llm-application-94654b1eaba7

RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application?

The definitive guide for choosing the right method for your use case

medium.com

1. RAG와 Fine-tuning은 무엇인가?

1. 1 RAG

RAG는 검색 기능의 강점을 LLM 텍스트 생성에 통합하는 방법으로, 대규모 데이터셋에서 관련 문서를 가져오는 검색기 시스템과 해당 문서의 정보를 활용하여 답변을 생성하는 LLM을 결합합니다. 결과적으로 RAG는 모델이 외부 정보를 "찾아보도록" 하여 응답의 품질을 향상시킵니다.

https://medium.com/data-science/rag-vs-finetuning-which-is-the-best-tool-to-boost-your-llm-application-94654b1eaba7

1.2 Fine-tuning

사전 훈련된 LLM을 특정 태스크나 도메인에 적응시키거나 성능을 향상시키기 위해 더 작고 구체적인 데이터셋으로 추가 훈련하는 과정입니다. 파인튜닝을 통해 데이터를 기반으로 모델의 가중치를 조정하여 애플리케이션의 고유한 요구사항에 더 맞게 모델을 조정합니다.

RAG와 파인튜닝은 모두 LLM 기반 애플리케이션의 성능을 향상시키는 강력한 도구이지만, 최적화 과정의 서로 다른 방향성을 지닙니다.
글의 저자는, 이전에는 저는 조직들에게 파인튜닝에 바로 뛰어들기보다 먼저 RAG를 실험해 보라고 제안하곤 했습니다. 이는 두 접근 방식이 비슷한 결과를 얻지만 복잡성, 비용, 품질 면에서 차이가 있다는 인식에 기반한 것이었습니다.

위의 차트에서는 복잡성, 비용, 품질과 같은 다양한 요소들이 단일 차원으로 표현되어 있습니다.

차트에서 말하는 핵심은, RAG는 더 단순하고 비용이 적게 들지만, 품질 면에서는 다소 부족할 수 있다는 것입니다. 저자가 일반적으로 제시했던 조언은 다음과 같았습니다. RAG로 시작하여 성능을 평가한 다음, 부족하다고 판단되면 파인튜닝으로 전환하라는 것이었죠.
하지만 이후 제 관점은 달라졌습니다. RAG와 파인튜닝을 단순히 같은 결과를 얻는 두 가지 기술로 보는 것, 즉 하나가 다른 것보다 단지 더 저렴하고 덜 복잡하다고 보는 것은 지나친 단순화라고 생각합니다. 이 둘은 근본적으로 다른 접근법입니다 — 같은 선상에 있는 것이 아니라 실제로는 *서로 수직(직교)*하는 관계이며, LLM 애플리케이션의 서로 다른 요구사항을 충족시킵니다.

여기서 저자는 재미있는 비유를 사용했습니다.

이를 더 명확하게 설명하기 위해 간단한 실생활 비유를 생각해 봅시다: "식사할 때 칼을 사용해야 할까요, 아니면 숟가락을 사용해야 할까요?"라는 질문을 받았을 때, 가장 논리적인 반문은 "음, 무엇을 먹고 있나요?"입니다. 제가 친구들과 가족들에게 이 질문을 했을 때 모두가 본능적으로 그 반문으로 대답했는데, 이는 그들이 칼과 숟가락을 서로 대체 가능한 도구로 보거나 하나를 다른 하나의 열등한 변형으로 보지 않는다는 것을 나타냅니다.

즉, 어떤 상황에서 사용하느냐? 어떤 제약 속에서 성능 문제를 해결하고자 하느냐? 에 따라 선택할 전략이 달라진다는 것이죠.

전략을 잘못 선택할 경우, 아래와 같은 부작용이 일어날 수있습니다.

특정 작업에서 모델 성능 저하로 인한 부정확한 출력 결과
사용 사례에 최적화되지 않은 기술을 사용할 경우 모델 훈련 및 추론 비용 증가
나중에 다른 기술로 전환해야 할 경우 추가적인 개발 및 반복 시간 소요
애플리케이션 배포 지연과 사용자에게 제공하는 시간 지연
지나치게 복잡한 적응 접근법을 선택할 경우 모델 해석 가능성 부족
크기나 계산 제약으로 인한 프로덕션 환경으로의 모델 배포 어려움

2. 고려해야하는 Key Point

1) 어플리케이션이 외부 데이터 소스에 접근해야 하는가?

LLM을 파인튜닝할지 또는 RAG를 사용할지 선택할 때 핵심 고려사항 중 하나는 해당 애플리케이션이 외부 데이터 소스에 접근해야 하는지 여부입니다. 만약 그렇다면, RAG가 더 나은 선택일 가능성이 높습니다.

RAG 시스템은 정의상 응답을 생성하기 전에 지식 소스에서 관련 정보를 검색함으로써 LLM의 기능을 향상시키도록 설계되었습니다. 이 기술은 데이터베이스, 문서 또는 기타 구조화/비구조화된 데이터 저장소를 쿼리해야 하는 애플리케이션에 적합합니다. 검색기와 생성기 구성 요소는 이러한 외부 소스를 활용하기 위해 최적화될 수 있습니다.

'지식이 자주 업데이트 되어야하는가?'

반면, LLM을 파인튜닝하여 일부 외부 지식을 학습시키는 것도 가능하지만, 이를 위해서는 대상 도메인의 질문-답변 쌍으로 구성된 대규모 레이블링된 데이터셋이 필요합니다. 이 데이터셋은 기본 데이터가 변경될 때마다 업데이트해야 하므로, 자주 변경되는 데이터 소스에는 실용적이지 않습니다. 또한 파인튜닝 과정은 외부 지식을 묻는 과정, 즉 검색하고 추론하는 단계를 명시적으로 모델링하지 않습니다.

요약하자면, 애플리케이션이 외부 데이터 소스를 활용해야 한다면, 파인튜닝만으로 필요한 지식을 내장시키려는 시도보다 RAG 시스템을 사용하는 것이 더 효과적이고 확장 가능할 것입니다.

2) 모델의 action, 문장 생성 스타일 또는 도메인별 전문 지식을 수정해야 하는가?

고려해야 할 또 다른 매우 중요한 측면은 모델이 행동, 작성 스타일을 조정하거나 도메인별 애플리케이션에 맞게 응답을 맞춤화해야 하는 정도입니다. 파인튜닝은 LLM의 행동을 특정 뉘앙스, 톤 또는 용어에 맞게 조정하는 능력에서 뛰어납니다. 모델이 의료 전문가처럼 들리게 하거나, 시적인 스타일로 작성하거나, 특정 산업의 전문 용어를 사용하도록 하고 싶다면, 도메인별 데이터로 파인튜닝하면 이러한 맞춤화를 달성할 수 있습니다. 모델의 행동에 영향을 미치는 이러한 능력은 특정 스타일이나 도메인 전문성과의 일치가 중요한 애플리케이션에 필수적입니다.

RAG는 외부 지식을 통합하는 데 강력하지만, 주로 정보 검색에 중점을 두며 검색된 정보를 기반으로 언어적 스타일이나 도메인 특수성을 본질적으로 적응시키지는 않습니다. 외부 데이터 소스에서 관련 콘텐츠를 가져오지만, 파인튜닝된 모델이 제공할 수 있는 맞춤형 뉘앙스나 도메인 전문성을 보여주지 못할 수 있습니다.

따라서, 우리 애플리케이션이 전문화된 작성 스타일이나 도메인별 용어 및 관행과의 깊은 연계를 요구한다면, 파인튜닝이 그러한 조정을 달성하는 더 직접적인 방법입니다. 파인튜닝은 특정 청중이나 전문 분야와 진정으로 공감하는 데 필요한 깊이와 맞춤화를 제공하여 생성된 콘텐츠가 진정성 있고 잘 정보를 갖추도록 보장합니다.

가장 중요한 포인트로 짚은 (1) 외부지식 필요여부 (2) 모델 adaptaion 필요 여부, 이 두 가지 측면은 LLM 애플리케이션 성능을 향상시키기 위해 어떤 방법을 사용할지 결정할 때 가장 중요하게 고려해야 할 요소들입니다. 이 두 방법에 대해서 서로 직교(orthogonal)하며 독립적으로 사용할 수 있고 결합하여 hybrid형태로 사용할수 있습니다.

3) 할루시네이션에 대한 제어가 얼마나 필요한가?

LLM의 단점 중 하나는 환각 현상 - 즉, 현실에 근거가 없는 사실이나 세부 사항을 만들어내는 경향이 있다는 것입니다. 이는 정확성과 진실성이 중요한 애플리케이션에서 매우 문제가 될 수 있습니다.

파인튜닝은 특정 도메인의 훈련 데이터에 모델을 grounding시킴으로써 어느 정도 환각을 줄이는 데 도움이 될 수 있지만, 모델은 익숙하지 않은 입력에 직면했을 때 여전히 응답을 꾸며낼 수 있습니다. 거짓 정보 생성을 지속적으로 최소화하려면 새로운 데이터로 재훈련이 필요합니다.

반면에, RAG 시스템은 본질적으로 환각 현상이 덜 발생하는데, 이는 각 응답을 검색된 증거에 기반하기 때문입니다. Generator가 답변을 구성하기 전에 Retrieval가 외부 지식 소스에서 관련 사실을 식별합니다. 이 검색 단계는 사실 확인 메커니즘 역할을 하여 모델이 거짓 정보를 만들어낼 가능성을 줄입니다. 생성기는 검색된 컨텍스트에 의해 뒷받침되는 응답을 합성하도록 제한됩니다.

따라서 허위 정보와 상상적인 정보 생성을 억제하는 것이 중요한 애플리케이션에서는 RAG 시스템이 환각을 최소화하기 위한 내장 메커니즘을 제공합니다. 응답 생성 전에 지원 증거를 검색하는 것은 RAG가 사실적으로 정확하고 진실된 출력을 보장하는 데 있어 강점을 제공합니다.

4) 얼마나 많은 레이블된 훈련 데이터가 있는가?

특정 작업이나 도메인에 적응하기 위해 LLM을 파인튜닝하는 것은 사용 가능한 레이블된 데이터의 질과 양에 크게 의존합니다. 풍부한 데이터셋은 모델이 특정 도메인의 뉘앙스, 복잡성 및 고유한 패턴을 깊이 이해하는 데 도움을 주어 더 정확하고 상황에 맞는 응답을 생성할 수 있게 합니다.

그러나 제한된 데이터셋으로 작업하는 경우 파인튜닝으로 인한 개선이 미미할 수 있습니다. 어떤 경우에는 부족한 데이터셋이 과적합(overfitting)을 초래할 수도 있는데, 이는 모델이 훈련 데이터에서는 잘 작동하지만 보지 못한 데이터나 실제 입력에서는 어려움을 겪는 상황입니다.

반면에, RAG 시스템은 관련 정보를 검색하기 위해 외부 지식 소스를 활용하므로 훈련 데이터에 독립적입니다. 광범위한 레이블된 데이터셋이 없더라도, RAG 시스템은 외부 데이터 소스에서 통찰력을 접근하고 통합함으로써 여전히 효과적으로 작동할 수 있습니다. 검색과 생성의 조합은 도메인별 훈련 데이터가 부족한 경우에도 시스템이 정보를 갖추도록 보장합니다.

본질적으로, 도메인의 복잡성을 담은 풍부한 레이블된 데이터가 있다면 파인튜닝은 더 맞춤화되고 정제된 모델 동작을 제공할 수 있습니다. 그러나 그러한 데이터가 제한된 시나리오에서는 RAG 시스템이 탄탄한 대안을 제공하여 검색 기능을 통해 애플리케이션이 데이터에 기반하고 상황을 인식하도록 보장합니다.

5) 데이터가 얼마나 정적(static) 동적(dynamic)인가?

데이터가 얼마나 자주 업데이트되며, 모델이 최신 상태를 유지하는 것이 얼마나 중요한가요?

특정 데이터셋으로 LLM을 파인튜닝한다는 것은 모델의 지식이 훈련 시점의 해당 데이터의 정적 스냅샷이 된다는 의미입니다. 데이터가 빈번한 업데이트, 변경 또는 확장을 거친다면, 이는 모델을 빠르게 구식으로 만들 수 있습니다. 이렇게 동적인 환경에서 LLM을 최신 상태로 유지하려면 자주 재훈련해야 하는데, 이 과정은 시간과 자원을 많이 소모합니다. 또한, 각 반복마다 업데이트된 모델이 여전히 다양한 시나리오에서 잘 작동하는지, 새로운 편향이나 이해의 격차가 생기지 않았는지 주의 깊게 모니터링해야 합니다.

RAG 시스템은 반대로 동적 데이터 환경에서 본질적인 이점을 가지고 있습니다. 검색 메커니즘이 지속적으로 외부 소스를 쿼리하여 응답 생성에 활용하는 정보가 항상 최신 상태임을 보장합니다. 외부 지식 베이스나 데이터베이스가 업데이트됨에 따라 RAG 시스템은 이러한 변화를 원활하게 통합하여 빈번한 모델 재훈련 없이도 관련성을 유지합니다.

요약하자면, 빠르게 진화하는 데이터 환경을 다루고 있다면, RAG는 전통적인 파인튜닝으로는 따라가기 어려운 민첩성을 제공합니다. 항상 최신 데이터와 연결된 상태를 유지함으로써 RAG는 생성된 응답이 현재 정보 상태와 조화를 이루도록 보장하며, 이는 동적 데이터 시나리오에 이상적인 선택입니다.

6) LLM 앱이 얼마나 투명하고 해석 가능해야 하는가?

고려해야 할 마지막 측면은 모델의 의사 결정 과정에 대한 통찰력이 얼마나 필요한지입니다.

LLM을 파인튜닝하는 것은 매우 강력하지만, 블랙박스처럼 작동하여 응답 뒤에 있는 추론 과정이 더 불투명해집니다. 모델이 데이터셋의 정보를 내부화함에 따라 각 응답 뒤에 있는 정확한 출처나 추론을 파악하기 어려워집니다. 이는 개발자나 사용자가 모델의 출력을 신뢰하기 어렵게 만들 수 있으며, 특히 답변 뒤의 "이유"를 이해하는 것이 중요한 중요한 애플리케이션에서 더욱 그렇습니다.

RAG 시스템은 반면에 순수 파인튜닝된 모델에서는 일반적으로 찾아볼 수 없는 수준의 투명성을 제공합니다. RAG의 두 단계 - 검색과 생성 - 특성 덕분에 사용자는 프로세스를 들여다볼 수 있습니다. 검색 구성 요소를 통해 어떤 외부 문서나 데이터 포인트가 관련성 있는 것으로 선택되었는지 검사할 수 있습니다. 이는 응답이 구축되는 기반을 이해하기 위해 평가할 수 있는 명확한 증거나 참조 경로를 제공합니다. 모델의 답변을 특정 데이터 소스까지 역추적할 수 있는 능력은 높은 수준의 책임성이 요구되는 애플리케이션이나 생성된 콘텐츠의 정확성을 검증해야 할 필요가 있는 경우에 매우 귀중할 수 있습니다.

본질적으로, 투명성과 모델 응답의 기반을 해석하는 능력이 우선순위라면, RAG는 분명한 이점을 제공합니다. 응답 생성을 명확한 단계로 분해하고 데이터 검색에 대한 통찰력을 허용함으로써 RAG는 출력에 대한 더 큰 신뢰와 이해를 촉진합니다.

요약

	체크 리스트	RAG	Fine-tuning
1	외부 지식이 필요한가?	O	X
2	모델의 behavior(뉘앙스, 톤, 지식)을 변경해야하는가?	X	O
3	할루시네이션을 최소화 해야하는가?	O	X
4	충분한 양과 품질의 학습데이터를 얻을 수있는가?	X	O
5	데이터 업데이트가 자주 필요한가?	O	X
6	해석 가능성이 필요한가?	O	X

Use Case별 확인

A. 요약(Summary) 태스크

1. 외부 지식이 필요한가? 이전 요약의 스타일로 요약하는 작업의 경우, 주요 데이터 소스는 이전 요약 자체입니다. 이러한 요약이 정적 데이터셋 내에 포함되어 있다면, 지속적인 외부 데이터 검색의 필요성은 거의 없습니다. 그러나 자주 업데이트되는 요약의 동적 데이터베이스가 있고 목표가 스타일을 최신 항목과 지속적으로 일치시키는 것이라면, 여기서 RAG가 유용할 수 있습니다.

2. 모델 적응이 필요한가? 이 사용 사례의 핵심은 전문 도메인이나 특정 작성 스타일에 적응하는 것입니다. 파인튜닝은 특히 문체적 뉘앙스, 어조 변화, 특정 도메인 어휘를 포착하는 데 능숙하여 이 측면에서 최적의 선택입니다.

3. 할루시네이션 최소화가 중요한가? 환각은 요약을 포함한 대부분의 LLM 애플리케이션에서 문제가 됩니다. 그러나 이 사용 사례에서는 요약할 텍스트가 일반적으로 컨텍스트로 제공됩니다. 이는 다른 사용 사례에 비해 환각이 덜 우려된다는 의미입니다. 소스 텍스트가 모델을 제한하여 상상적인 정보 생성을 줄입니다. 따라서 사실적 정확성이 항상 바람직하지만, 컨텍스트 grounding이 있는 요약에서는 환각 억제의 우선순위가 낮습니다.

4. 훈련 데이터가 있는가? 모델이 학습할 수 있는 방식으로 레이블링되거나 구조화된 이전 요약의 상당한 컬렉션이 있다면, 파인튜닝은 매우 매력적인 옵션이 됩니다. 반면, 데이터셋이 제한적이고 스타일 정렬을 위해 외부 데이터베이스에 의존한다면, RAG가 역할을 할 수 있지만, 그 주요 강점은 스타일 적응이 아닙니다.

5. 데이터가 얼마나 동적인가? 이전 요약의 데이터베이스가 정적이거나 드물게 업데이트된다면, 파인튜닝된 모델의 지식은 더 오랜 시간 동안 관련성을 유지할 가능성이 높습니다. 그러나 요약이 자주 업데이트되고 모델이 최신 스타일 변화와 지속적으로 일치할 필요가 있다면, RAG는 동적 데이터 검색 기능으로 인해 이점을 가질 수 있습니다.

6. 투명성/해석 가능성이 필요한가? 여기서 주요 목표는 스타일 일치이므로, 특정 요약 스타일 뒤의 "이유"는 다른 사용 사례보다 덜 중요할 수 있습니다. 그렇긴 하지만, 특정 출력에 영향을 미친 이전 요약을 역추적하고 이해할 필요가 있다면, RAG는 조금 더 많은 투명성을 제공합니다. 그러나 이는 이 사용 사례에서는 이차적인 관심사일 수 있습니다.

권장 사항: 이 사용 사례에는 파인튜닝이 더 적합한 선택으로 보입니다. 주요 목표는 파인튜닝이 빛나는 영역인 스타일 정렬입니다. 훈련에 사용할 수 있는 이전 요약의 양이 적절하다고 가정할 때, LLM을 파인튜닝하면 원하는 스타일에 깊이 적응하여 도메인의 뉘앙스와 복잡성을 포착할 수 있습니다. 그러나 요약 데이터베이스가 매우 동적이고 영향을 역추적하는 데 가치가 있다면, 하이브리드 접근 방식을 고려하거나 RAG 쪽으로 기울 수 있습니다.

B. QA 시스템

1. 외부 지식이 필요한가? 조직 지식 베이스에 의존하는 질의응답 시스템은 본질적으로 외부 데이터, 즉 조직의 내부 데이터베이스와 문서 저장소에 접근해야 합니다. 시스템의 효과는 이러한 소스에서 관련 정보를 탐색하고 검색하여 쿼리에 답변하는 능력에 달려 있습니다. 이를 고려할 때, RAG는 지식 소스에서 관련 데이터를 검색하여 LLM 기능을 향상시키도록 설계되었기 때문에 이 측면에서 더 적합한 선택으로 두드러집니다.

2. 모델 적응이 필요한가? 조직과 그 분야에 따라 모델이 특정 용어, 어조 또는 관행에 맞춰야 할 요구 사항이 있을 수 있습니다. RAG는 주로 정보 검색에 중점을 두지만, 파인튜닝은 LLM이 회사의 내부 용어나 도메인의 뉘앙스에 맞게 응답을 조정하는 데 도움이 될 수 있습니다. 따라서 이 측면에서는 특정 요구 사항에 따라 파인튜닝이 역할을 할 수 있습니다.

3. 할루시네이션 최소화가 중요한가? 이 사용 사례에서는 LLM의 지식 한계로 인해 환각이 주요 관심사입니다. 모델이 훈련된 데이터를 기반으로 질문에 답할 수 없다면, 그것은 거의 확실히 그럴듯하지만 부정확한 답변을 (부분적으로 또는 전체적으로) 만들어내는 방향으로 돌아갈 것입니다.

4. 훈련 데이터가 있는가? 조직이 이전에 답변된 질문의 구조화되고 레이블이 지정된 데이터셋을 가지고 있다면, 이는 파인튜닝 접근 방식을 강화할 수 있습니다. 그러나 모든 내부 데이터베이스가 훈련 목적으로 레이블링되거나 구조화되어 있지는 않습니다. 데이터가 깔끔하게 레이블링되어 있지 않거나 주요 초점이 정확하고 관련성 있는 답변을 검색하는 데 있는 시나리오에서는, 방대한 레이블링된 데이터셋 없이도 외부 데이터 소스를 활용할 수 있는 RAG의 능력이 매력적인 옵션이 됩니다.

5. 데이터가 얼마나 동적인가? 조직의 내부 데이터베이스와 문서 저장소는 빈번한 업데이트, 변경 또는 추가로 인해 매우 동적일 수 있습니다. 이러한 역동성이 조직의 지식 베이스의 특징이라면, RAG는 뚜렷한 이점을 제공합니다. 지속적으로 외부 소스를 쿼리하여 최신 가용 데이터를 기반으로 답변을 보장합니다. 파인튜닝은 이러한 변화에 대응하기 위해 정기적인 재훈련이 필요하며, 이는 비현실적일 수 있습니다.

6. 투명성/해석 가능성이 필요한가? 내부 애플리케이션, 특히 금융, 의료 또는 법률과 같은 부문에서는 답변 뒤의 추론이나 출처를 이해하는 것이 가장 중요할 수 있습니다. RAG는 검색 후 생성의 2단계 프로세스를 제공하므로, 특정 답변에 영향을 미친 문서나 데이터 포인트에 대한 더 명확한 통찰력을 본질적으로 제공합니다. 이러한 추적 가능성은 특정 답변의 출처를 검증하거나 추가로 조사해야 할 수 있는 내부 이해관계자에게 귀중할 수 있습니다.

권장 사항: 이 사용 사례에는 RAG 시스템이 더 적합한 선택으로 보입니다. 조직의 진화하는 내부 데이터베이스에 동적으로 접근해야 할 필요성과 답변 과정의 투명성에 대한 잠재적 요구 사항을 고려할 때, RAG는 이러한 요구 사항에 잘 맞는 기능을 제공합니다. 그러나 모델의 언어 스타일을 맞추거나 도메인별 뉘앙스에 적응하는 데 중점을 두는 경우, 파인튜닝 요소를 통합하는 것을 고려할 수 있습니다.

C. 고객 지원 자동화

(예: 고객 문의에 즉각적인 응답을 제공하는 자동화된 챗봇 또는 헬프데스크 솔루션)

1. 외부 지식이 필요한가? 고객 지원(customoer support) 은 특히 제품 세부 정보, 계정별 정보 또는 문제 해결 데이터베이스를 다룰 때 외부 데이터에 대한 접근을 필요로 합니다. 많은 쿼리가 일반 지식으로 처리될 수 있지만, 일부는 회사 데이터베이스나 제품 FAQ에서 데이터를 가져와야 할 수 있습니다. 여기서 RAG의 외부 소스에서 관련 정보를 검색하는 기능이 유용할 것입니다. 그러나 많은 고객 지원 상호작용이 미리 정의된 스크립트나 지식을 기반으로 하며, 이는 파인튜닝된 모델로 효과적으로 처리될 수 있다는 점을 유념할 가치가 있습니다.

2. 모델 적응이 필요한가? 고객 상호작용은 특정 어조, 예의, 명확성을 요구하며, 회사별 용어도 필요할 수 있습니다. 파인튜닝은 LLM이 회사의 목소리, 브랜딩 및 특정 용어에 적응하도록 보장하여 일관되고 브랜드에 맞는 고객 경험을 제공하는 데 특히 유용합니다.

3. 할루시네이션의 최소화가 중요한가? 고객 지원 챗봇의 경우, 사용자 신뢰를 유지하기 위해 거짓 정보를 피하는 것이 필수적입니다. 파인튜닝만으로는 모델이 익숙하지 않은 쿼리에 직면했을 때 환각에 취약합니다. 반면, RAG 시스템은 검색된 증거에 응답을 기반하여 거짓 정보 생성을 억제합니다. 이러한 소스 기반 사실에 대한 의존성은 RAG 챗봇이 해로운 허위 정보를 최소화하고 정확성이 중요한 곳에서 사용자에게 신뢰할 수 있는 정보를 제공할 수 있게 합니다.

4. 훈련 데이터가 있는가? 회사에 고객 상호작용 이력이 있다면, 이 데이터는 파인튜닝에 매우 귀중할 수 있습니다. 이전 고객 쿼리와 그 해결책의 풍부한 데이터셋은 모델이 미래에 유사한 상호작용을 처리하도록 훈련하는 데 사용될 수 있습니다. 그러한 데이터가 제한적이라면, RAG는 제품 문서와 같은 외부 소스에서 답변을 검색하여 대안을 제공할 수 있습니다.

5. 데이터가 얼마나 동적인가? 고객 지원은 새 제품, 업데이트된 정책 또는 변경된 서비스 약관에 관한 쿼리를 처리해야 할 수 있습니다. 제품 라인업, 소프트웨어 버전 또는 회사 정책이 자주 업데이트되는 시나리오에서는 RAG가 최신 문서나 데이터베이스에서 동적으로 정보를 가져오는 능력이 유리합니다. 반면, 더 정적인 지식 도메인의 경우 파인튜닝만으로도 충분할 수 있습니다.

6. 투명성/해석 가능성이 필요한가? 일부 부문에서는 투명성이 필수적이지만, 고객 지원에서는 정확하고 빠르며 정중한 응답이 주요 초점입니다. 그러나 내부 모니터링, 품질 보증 또는 고객 분쟁 해결을 위해 답변의 출처에 대한 추적 가능성을 갖는 것이 유용할 수 있습니다. 이러한 경우 RAG의 검색 메커니즘은 추가적인 투명성 계층을 제공합니다.

권장 사항: 고객 지원 자동화의 경우 하이브리드 접근 방식이 최적일 수 있습니다. 파인튜닝은 챗봇이 회사의 브랜딩, 어조 및 일반 지식에 맞게 조정되어 대부분의 일반적인 고객 쿼리를 처리할 수 있도록 합니다. RAG는 그런 다음 보완적인 시스템으로 기능하여 더 동적이거나 특정한 문의에 개입하고, 챗봇이 최신 회사 문서나 데이터베이스에서 정보를 가져올 수 있도록 하여 환각을 최소화합니다. 두 접근 방식을 통합함으로써 기업은 포괄적이고 시기적절하며 브랜드와 일관된 고객 지원 경험을 제공할 수 있습니다.

추가 고려 사항

확장성 : 조직이 성장하고 요구 사항이 발전함에 따라, 해당 방법들의 확장성은 어떻게 될까요? RAG 시스템은 모듈식 특성 덕분에 특히 지식 베이스가 성장하는 경우 더 간단한 확장성을 제공할 수 있습니다. 반면, 확장되는 데이터셋에 맞게 모델을 자주 파인튜닝하는 것은 계산적으로 부담이 될 수 있습니다.

지연 시간 및 실시간 요구 사항 : 애플리케이션이 실시간 또는 거의 실시간 응답을 요구하는 경우, 각 방법이 도입하는 지연 시간을 고려하세요. 응답을 생성하기 전에 데이터를 검색하는 RAG 시스템은 내재화된 지식을 기반으로 응답을 생성하는 파인튜닝된 LLM에 비해 더 많은 지연 시간을 도입할 수 있습니다.

유지 관리 및 지원 : 장기적인 관점에서 생각해 보세요. 어떤 시스템이 조직의 일관된 유지 관리 및 지원 능력과 더 잘 맞는지요? RAG는 데이터베이스와 검색 메커니즘의 유지 관리가 필요할 수 있는 반면, 파인튜닝은 특히 데이터나 요구 사항이 변경되는 경우 일관된 재훈련 노력이 필요할 것입니다.

견고성 및 신뢰성 : 각 방법이 다양한 유형의 입력에 얼마나 견고한가요? RAG 시스템은 외부 지식 소스에서 정보를 가져와 광범위한 질문을 처리할 수 있지만, 잘 파인튜닝된 모델은 특정 도메인에서 더 많은 일관성을 제공할 수 있습니다.

윤리적 및 개인 정보 보호 문제 : 외부 데이터베이스에서 저장하고 검색하는 것은 특히 데이터가 민감한 경우 개인 정보 보호 문제를 야기할 수 있습니다. 반면, 파인튜닝된 모델은 라이브 데이터베이스를 쿼리하지 않지만 여전히 훈련 데이터를 기반으로 출력을 생성할 수 있으며, 이는 자체적인 윤리적 의미를 가질 수 있습니다.

기존 시스템과의 통합 조직은 이미 특정 인프라를 갖추고 있을 수 있습니다. RAG 또는 파인튜닝과 기존 시스템(데이터베이스, 클라우드 인프라 또는 사용자 인터페이스)의 호환성은 선택에 영향을 미칠 수 있습니다.

사용자 경험 최종 사용자와 그들의 요구 사항을 고려하세요. 상세하고 참조 기반의 답변이 필요하다면 RAG가 바람직할 수 있습니다. 속도와 도메인별 전문 지식을 중요시한다면 파인튜닝된 모델이 더 적합할 수 있습니다.

비용 파인튜닝은 특히 매우 큰 모델에서는 비용이 많이 들 수 있습니다. 그러나 최근 몇 달 동안 QLoRA와 같은 매개변수 효율적인 기술 덕분에 비용이 크게 감소했습니다. RAG 설정은, 통합, 데이터베이스 접근, 심지어 라이센스 비용을 포함하는 초기 투자가 클 수 있지만, 그 다음에는 외부 지식 베이스의 정기적인 유지 관리도 고려해야 합니다.

복잡성 파인튜닝은 빠르게 복잡해질 수 있습니다. 많은 제공자들이 이제 훈련 데이터만 제공하면 되는 원클릭 파인튜닝을 제공하지만, 모델 버전을 추적하고 새 모델이 여전히 전반적으로 잘 작동하는지 확인하는 것은 도전적입니다. 한편, RAG도 빠르게 복잡해질 수 있습니다. 여러 구성 요소의 설정, 데이터베이스를 최신 상태로 유지하는 것, 그리고 검색 및 생성과 같은 요소들이 정확하게 맞물리도록 보장하는 것이 필요합니다.

저작자표시

'자연어처리(NLP) > LLM(Large Language Model)' 카테고리의 다른 글

생성형 텍스트 평가 지표 ROUGE, BLEU, BLEURT (1)	2025.03.20
LLM fine-tuning 학습 데이터 전략 최적화 (0)	2025.02.25
[CIT/Continual Instruction Tuning] Task-Incremental Tuning① (PAPT, Continual-T0, ConTinTin, SLM) (0)	2025.02.24
[Continual Learning] Continual Instruction Tuning (CIT) (0)	2025.02.24
[LLM][기초] LLM의 Pre-Training Objective (Full, Prefix, Masked, Unified) (0)	2024.09.11

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Hyen4110

[LLM] LLM 어플리케이션을 위한 선택 : RAG vs Finetuning

1. RAG와 Fine-tuning은 무엇인가?

1. 1 RAG

1.2 Fine-tuning

2. 고려해야하는 Key Point

1) 어플리케이션이 외부 데이터 소스에 접근해야 하는가?

2) 모델의 action, 문장 생성 스타일 또는 도메인별 전문 지식을 수정해야 하는가?

3) 할루시네이션에 대한 제어가 얼마나 필요한가?

4) 얼마나 많은 레이블된 훈련 데이터가 있는가?

5) 데이터가 얼마나 정적(static) 동적(dynamic)인가?

6) LLM 앱이 얼마나 투명하고 해석 가능해야 하는가?

요약

Use Case별 확인

A. 요약(Summary) 태스크

B. QA 시스템

C. 고객 지원 자동화

추가 고려 사항

'자연어처리(NLP) > LLM(Large Language Model)' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[LLM] LLM 어플리케이션을 위한 선택 : RAG vs Finetuning

1. RAG와 Fine-tuning은 무엇인가?

1. 1 RAG

1.2 Fine-tuning

2. 고려해야하는 Key Point

1) 어플리케이션이 외부 데이터 소스에 접근해야 하는가?

2) 모델의 action, 문장 생성 스타일 또는 도메인별 전문 지식을 수정해야 하는가?

3) 할루시네이션에 대한 제어가 얼마나 필요한가?

4) 얼마나 많은 레이블된 훈련 데이터가 있는가?

5) 데이터가 얼마나 정적(static) 동적(dynamic)인가?

6) LLM 앱이 얼마나 투명하고 해석 가능해야 하는가?

요약

Use Case별 확인

A. 요약(Summary) 태스크

B. QA 시스템

C. 고객 지원 자동화

추가 고려 사항

'자연어처리(NLP) > LLM(Large Language Model)' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역