본문 바로가기
자연어처리(NLP)/IR(Information Retrieval)

[논문리뷰] Pre-training Methods Designed for IR

by Hyen4110 2022. 10. 26.

이 글은 "사전학습 언어모델을 이용한 정보 검색"  분야의 최신 이슈 및 연구 동향을 정리한

Suvey Paper인 "Pre-training Methods in Information Retrieval"의 내용 중

Section 6(Pre-training Methods Designed for IR) 을 정리한 글입니다.

제목 Pre-training Methods in Information Retrieval
저자 Yixing Fan, Xiaohui Xie, Yinqiong Cai, Jia Chen, Xinyu Ma, Xiangsheng Li, Ruqing Zhang and Jiafeng Guo
게재 일자 18 Aug 2022
인용 수 10회 인용 (2022.10.26 기준)
원본 https://arxiv.org/pdf/2111.13853.pdf
주제 Architectures for IR,  Formal models and language models for IR,  Natural language processing for IR,  Web search

 

6. Pre-training Methods Designed for IR

  자연어처리 분야에서 사전훈련 언어모델(PTM)의 목표는 단어나 텍스트의 좋은 표현(representation)을 학습하는 것입니다. 쿼리와 문서에 대한 좋은 표현을 얻는 것은 정보검색(IR, information retrieval) 분야에서 핵심 요건이기 때문에, 사전훈련 언어모델(PTM)을 도입하여 여러 IR 과제에서 좋은 성능을 얻을 수 있었습니다.

 

  그러나, IR의 핵심은 연관성(relevance)이라는 개념을 모델링하는 것입니다. 이것은 NLP를 위해 고안된 사전훈련 언어모델(PTM)에서는 고려되지 않았던 부분이죠. 이 이슈를 다루기 위해서, IR 커뮤니티의 연구자들은 IR 관점에서의 아키텍처는 물론, 새로운 사전학습 비용함수(objectives)에 대해서도 다시 생각하고 연구하기 시작했습니다.

 

  일반적으로, 순위 함수(ranking function)는 아래와 같이 정의됩니다.

rel(q, d) = f(φ(q), ψ(d), η(q, d)), 
φ, ψ : representation function
η : interaction function 
f : scoring function 

φ, ψ 는 representation feature를 추출하는 representation function이며, 
η 는 interaction feature를 추출하는 interaction function, 
f 는 scoring function 으로 코사인함수나 MLP 같은 함수로 보통 설정합니다.

 

  전통적인 워드 임베딩 방법론은, 단일 텍스트 시퀀스를 입력하여 각 단어 별 고정된 차원의 벡터를 출력하였습니다. 따라서 워드임베딩 출력은 일반적으로 representation function(φ, ψ)을 모델링하는데 사용되었습니다.  최근 트랜스포머 기반의 사전훈련 언어모델(PTM)의 경우, 입력 형식과 사전훈련 비용함수에 따라 사전훈련 방식이 2가지로 나뉩니다.

 

  (1) Pre-training Embeddings/Representation Model

- 단일 텍스트 시퀀스를 입력하여 다양한 언어 모델링 과제를 통해 단어의 문맥적인 표현(contextualized representation)을 학습하는 방식으로, 이러한 유형의 사전훈련 언어모델(PTM)은 φ, ψ을 학습하기 위한 사전학습 표현 모델(pre-trained representation model)로 분류됩니다. 

 

  (2) Pre-trianing Interaction Model

 - 텍스트 시퀀스 쌍을 입력값으로 받아서 직접적으로 그들 간의 상호작용(interaction)을 학습하는 방식

 - 물론, 사전학습 표현 모델은 레이블링 된 데이터에 파인튜닝을 하여 상호작용에 초점을 둔 아키텍처로 활용될 수 있습니다. 하지만, 사전훈련-파이인튜닝 불일치 문제를 일으켜, 사전학습의 효과를 발휘하지 못하게 될 수 있습니다.

 

 

6.1 Pre-training Embeddings/Representation Models for IR

  사전학습 단어 임베딩(pre-trained word embeddings)는 주로 신경망 모델에서 단어 임베딩 층의 초기값으로 사용되었지만, 사전학습 표현 모델(pre-trained representation model)은 추가적인 모델 아키텍처 없이 그 자체로 IR 과제를 위해 사용될 수(transferred) 있습니다. 즉, 전체 사전학습 표현 모델을 다운스트림 과제를 위한 지도학습 데이터와 함께 파인튜닝 할 수 있다는 의미입니다. 사전학습 모델을 파인튜닝하는것은 사실상 NLP와 CV를 포함한 다양한 분야에서 새로운 패러다임이 되었습니다. 이  단어 임베딩과 표현모델은 모두 대용량의 코퍼스 데이터를 이용하여 자기 지도학습으로 사전 훈련됩니다.

 

6.1.1 Static Word Embeddings

  NLP분야의 고전적인 임베딩 방법은 대용량의 코퍼스 상에서 단어 동시출현빈도, 특히 단어 근접성을 기반으로합니다. 주어진 문맥의 단어들(단어)로부터 정해진 범위 내의(within a local window) 근접한 단어(단어들)을 예측함으로써, 단어의 어휘적, 구문적, 의미적인(lexical, syntactic, and semantic) 특징을 잡아낼 수 있습니다. 이러한 단어임베딩 모델이 신경망 모델에서 광범위하게 사용되고 있고, 다수의 IR 과제에서는 효과적인 것으로 입증되었으나, IR 과제의 주요 목적과는 일치하지 않습니다. 

  IR의 주요 목적은 특정 정보 필요(infromation need)와 관련이 있는 문서에서 관측될만한 단어를 예측하는 것입니다. 이러한 IR에 적합한 방법으로 고안된 단어 임베딩은 2가지 측면으로 연구되었습니다.

 

1) Regularizing the Original Loss

문서 단위의 단어 빈도수, 텍스트 길이와 같은  IR를 위한 특성들은  NLP를 위해 고안된 워드 임베딩에서는 고려되지 않기 때문에, 이런 단서를 학습 비용함수에 추가하는것은 IR 과제에서 성능 향상을 가져올 수 있습니다. 

 

Ai et al. (2016b)은 paragraph vector(PV)가 

   1) 문서에서 단어 빈도의 중요성을 억제할 수 있다.
   2) 훈련 과정에서 짧은 문서에 과적합되는 경향이 있다.  
   3) 비용함수가 단어-문맥 연관성을 모델링하지 못한다.

는 점에 착안하여 현존하는 비용함수를 정규화하는 3가지 방법을 제안했습니다 

 

-> idf 기반 negative sampling

-> 문서길이를 정규화하기위한 L2 도입

-> 패러다임적인(paradigmatic) 관계를 학습하기 위한 다른 비용함수 추가

 

2) Designing New Objectives

   Diaz et al. (2016)은 쿼리를 위한 지역적인 워드 임베딩을 훈련하는 방법론을 제안하였는데, 통계적 언어 모델 접근 방식(Croft and Lafferty, 2003)에 의해 검색된 상위 k 문서와 쿼리를 사용하여 주제별 언어의 뉘앙스를 포착하도록 하였습니다. 

그러나 이 모델은 쿼리 시간 동안 훈련되어야하기 때문에, 실무에서는 적합하지 않습니다.

 

  Zamani와 Croft(2017)는 word2vec 프레임워크에서 주어진 쿼리에 대해 검색된 top-k개의 문서에서 발생하는 단어를 예측함으로써 연관성을 기반으로한 (relevance-based) 단어 임베딩을 비지도학습으로 사전훈련하도록 하였습니다. 차이점은 그들은 연관성과 유사한 피드백(pseudo-relevance feedback, PRF)모델을 사용했다는 것이며, 특히 오프라인으로 문서를 검색하는 데 언어모델에 근거한 연관성을 사용하였습니다. 그들은 수백만개의 쿼리의 연관 단어 임베딩을 학습하는데 , 아주 얕은 신경망(한 층의 hidden layer)을 사용하였습니다. 쿼리 확장 과제(query expansion task)와 쿼리 분류(query classification)과제에 대한 실험들은, 그들의 모델에 의하여 선택된 확장된 용어들이 word2vec보다 더 전체 쿼리와 관련이 있음을 보여주었습니다. 

 

Gysel et al. (2018)은 문서 검색을 위해 NVSM이라고하는  또다른 비지도학습 방법론을 제안하였습니다. 이 모델의 최적화 비용함수의 가정은, 한 문서로부터 추출된 단어 시퀀스는 그 문서를 예측할 수 있어야 한다는 것입니다. 특히, 한 문서로부터 n개의 연속된 단어구(예: n-grams)가 샘플링되고, 관련있는 문서 표현을 예측하기위하여 구의 단어 표현의 평균을 학습합니다. 실험을 통해서 NVSM은 word2vec과 같은 잠재 벡터 공간 모델들보다 성능이 우수함을 보여주었습니다. 무작위로 샘플링된 n-gram은 많은 문서와 의미상 유사할 수 있기 때문에, 해당 n-gram과 문서를 가깝게 하도록 학습하는 것은 노이즈가 발생할 가능성을 남깁니다. 

 

 

 

6.1.2 Representation Models

정적 단어 임베딩은 다의어를 모델링할 수 없는데, 그 이유는 다의어의 경우 문맥에 따라 단어의 사용이 다르기 때문입니다. 이 문제를 다루기 위하여 선행연구들은 문맥에 의존하는 representation을 학습하는 방법론을 제안하였습니다. representation learning의 발달로 연구자들은 트랜스포머와 같은 심층 신경망 모델 전체를 문맥적인 단어 표현을 위한 자기지도학습과제를 통해 학습하였고, 전체 모델은 다운스트림 과제를 위해 전이학습을 진행하였습니다. 

자기지도학습 과제는 주로 인과적(casual) 언어 모델링), 마스크(masked) 언어 모델링 및 순열(permuted) 언어 모델링과 같은 언어모델링 과제입니다. 비록 이러한 사전학습 언어모델(PTM)들이 좋은 문맥 단어 표현을 생성하더라도, 오히려 더 안좋은 텍스트 시퀀스 임베딩을 생성하는 것을 보여주었으며, 이것은 심지어 GLove 임베딩의 평균값보다 더 안좋은 성능을 내기도 하였습니다.

 

따라서, 연구자들은 높은 퀄리티의 쿼리와 문서에 대한 텍스트 시퀀스 representation을 학습하는 방법에 대한 연구를 진행하였습니다. 이러한 사전훈련된 표현 모델들은 representation에 초점을 둔 ranking model에 적용 되었습니다. IR을 위한 사전학습 표현 모델들의 연구는 2가지 측면으로 볼 수 있습니다. 

 

1) Pre-training Objectives

학습 목적함수의 기본 가설은, 선행 연구들에서 두가지로 분류 됩니다. 첫째는, 사전학습 목적함수가 다운스트림 과제와 유사하다면, 사전학습 언어모델(PTM)은 파인튜닝 단게에서 더 빠르고 좋은 성능을 낼 수 있다는 것입니다. 

 

  Lee et al. (2019b)는 open domain question answering(ODQA)에서 passage retrieval을 위한 새로운 사전학습 과제인 Inverse Cloze Task(ICT)를 제안했습니다. ICT에서 한 문장은 주어진 passage에서 임시 쿼리로 랜덤 샘플링되고, 나머지 문장들을 positive 컨텍스트로 취급합니다. 

 

  Chang et al. (2020)은 ICT에서 영감을 받아서 위키피디아 문서를 더 잘 활용하는 또 다른 2개의 과제를 제안했습니다. 첫째는, Body First Selection(BFS)인데, 위키피디아 페이지에 있는 첫번째 섹션에서 한 문장이 임의로 샘플링하고, 같은 페이지에 있는 나머지 passage들을 positive 컨텍스트로 취급합니다. 두번째는, Wiki Link Prediction(WLP)로, BFS와 같은 방식으로 문하나의 문장이 샘플링되지만, passage는 또 다른 링크된 위키피디아 페이지에서 샘플링 됩니다. 이러한 paragraph 단위의 사전학습 과제는 임베딩을 기반으로한 dense retrieval을 위한 Bi-encoder 로 사전 훈련됩니다.

  몇몇 QA과제에서의 실험은 사전학습된 모델이 제한된 개수의 레이블링 데이터로 파인튜닝 했을때에 보편적으로 사용되는 BM25알고리즘과 MLM 사전학습 모델보다 월등히 성능이 높음을 보여주었습니다. 그러나 BFS와 WLP는 웹 문서의 특정 구조에 의존하고 있어서 (예: 다수의 paragrph 조각, 하이퍼링크 등), 일반적인 텍스트 코퍼스에 적용하기에는 어려움이 있습니다. 

 

  Tishby and Zaslavsky (2015)정보 병목 이론의 아이디어를 가져왔는데, 여기서 'good representation'은 출력값에 대한 입력값의 최대 압축된 매핑이라고 정의합니다. 입력값에 대한 압축과 재건을 수행하는 autoencoder 아키텍처는 자연스럽게 정보 병목 원리를 따르고 있습니다. 특히, 일반적인 auto-encoder는 하나의 encoder와 하나의 decoder로 구성되는데, encoder에서는 입력한 텍스트를 representation으로 매핑하고, decoder에서는 representation으로부터 입력 텍스트를 재건하도록 훈련됩니다. 

 

   Lu et al. (2021)은 decoder가 앞선 토큰들을 접근할수 있다는 점을 이용하여 언어 패턴 학습함으로써 지름길을 갈 수 있다는 점을 발견했습니다(take shortcuts). 따라서 바닐라 autoencoder는 높은 퀄리티의 시퀀스 표현을 제공할수 없다는 것이죠. 그들은 이러한 우회효과(bypass effect)를 피하기위하여 weak decoder를 가진 autoencoder 기반 언어모델을 사전학습하는 방법론 SEED를 제안했습니다. 모델의 capacity와 decoder의 attention 유동성을 제한함으로써 encoder는 dense retrieval에 더 좋은 텍스트 표현을 제공할 수 있습니다. 웹 검색, 뉴스 추천, openQA라는 3가지 과제에서 SEED는 효율성(effectiveness)와 few-shop 능력을 향상시킬 수 있다는 것을 입증하였습니다.

 

 

2) Model Architectures

 바닐라 트랜스포머 모델이 가진 self-attention 메커니즘의 시간 &  메모리 복잡도 문제(제곱비례)로 인해서, 사전학습 언어모델(PTM)의 입력 길이는 512로 제한됩니다. 그러나 IR의 문서들은 때로는 512보다 길기 때문에, 바닐라 트랜스퍼 모델 기반의 사전학습 언어모델(PTM)은 긴 문서를 다루기에 적합하지 않습니다. 

 

  몇몇 연구는 IR 시나리오에 적합한 몇가지 새로운 아키텍처를 기획하였는데,  

 

Longformer (Beltagy et al., 2020)는 local self-attnetion 모델과 global attnetion 의 조합을 사용하여 attnetion  matrix를 희소화(sparse) 하였습니다. 

Sekulic et al. (2020)는 Longformer를 기반으로한 사전학습 모델을 document-ranking에 적용하였습니다. 

 

Yang et al.(2020)는 Siamese Multi-depth Transformer-based Hierarchical(SMITH) Encoder를 제안하여 긴 문서 맻이 과제를 수행했습니다. SMITH는 문장 표현들을 bottom to top으로 계층적으로 조합(hierarchically aggregate)함으로써 문서 representation을 학습합니다. SMITH는 MLM 과제에 추가적으로 마스킹된 문장 블록 예측 과제로 사전학습됩니다. 실험 결과 SMITH는 입력 텍스트 길이를 512에서 2048로 증가시키며 2개의 문서 매칭 과제에서 BERT보다 높은 성능을 보여주었습습니다.

 

더 좋은 텍스트 표현을 학습하기 위해서 

 Gao and Callan (2021a)는 Condenser을 제안하였는데, lower layer에서higher layer들로 이어진 지름길(short circuit)을 추가하여 트랜스포머 아키텍처를 수정하였습니다. 특히 BERT와 같이 12개의 layer를 가진 트랜스포머 모델에, 그들은 2개의 추가 layer을 모델위에 추가한 후, 6번째 layer부터 13번째 layer로 가는 지름길을 추가하였습니다. 지름길을 위해, 6번째 layer로부터온 토큰 표현들은 13번째 layer에 입력이 되며, 이전 층인 12번째 layer에서부터 오는 입력값은 CLS 토큰을 제외하고는 없습니다. 그들은 7-12 번째 layer에 존재하는 [CLS] 토큰이 입력 텍스트의 더 전역적인 의미(global meaning)에 집중해서 top layer들이 원래 토큰을 예측하는데 충분한 정보를 제공한다고 주장하였습니다. 그들의 실험은 Condenser가 다양한 text retrieval과 similarity 과제에서 큰 차이로 언어모델을 능가하는 성능을 보임을 보여주었습니다.

 

 

 

6.2 Pre-training Interaction Models for IR

하나의 쿼리와 하나의 문서간의 연관성을 평가하는 것은, 그 문서에 담겨있는 정보가 쿼리의 이면에 담긴 정보 필요(information need)를 만족할 수 있는가에 대한 문제입니다. 이러한 정보는 작은 범위의 텍스트 조각일수도 또는 긴 passage일수도 있으며, 이것은 연관성 패턴(relevance pattern)에 큰 차이를 만듭니다. 최근 몇 년간, 표현에 초점을 둔 (representation-focused) 모델들은 간단한 interaction function에 의존했기 때문에 이러한 다양한 매칭 패턴을 학습하기 어려웠습니다. 

 

  이에 대한 대안은 사전학습 언어모델(PTM)을 사용하여 low-level의 feature로부터 복잡한 상호작용 패턴(interaction pattern)을 모델링하도록 하는것입니다. 현존하는 사전학습 언어모델(PTM)의 사전학습에서 목적함수가 상호작용(interaction)에 대한 학습보다는 표현(representation)에 대한 학습에 더 집중하고 있기 때문에, 연구자들은 도메인 데이타에서 쿼리와 문서간의 상호작용을 학습할수 있도록 하는 다양한 사전학습 언어모델(PTM) 학습 방법론을 제안하였습니다. 해당 모델들에서 설계된 목적함수는 2가지로 분류할 수 있습니다. 

 

6.2.1 Weak Supervised Learning

Weak supervised 학습은 노이즈가 섞인 데이터에서 머신러닝 모델을 학습하는 것을 목표로 합니다. 더 구체적으로 말하자면, 데이터의 레이블은 사람이 아니라 다른 모델에 의해서 자동적으로 생성됩니다. weak supervision의 학습 목적함수는 보통 다운스트림 과제에서의 목적함수와 같습니다. 즉, IR에서 weak supervision의 학습 목적함수는 ranking 목적함수라는 것이죠. 모델들은 생성된 노이즈 데이타에서 한번 사전학습 되었기 때문에, 목표하는 IR 과제에서 지도학습 기반 데이터를 이용하여 파인튜닝 될 수 있습니다. 

 

NeuIR의 등장과 함께 연구자들은 ad-hoc retrieval의 효과를 입증하기 위하여 weakly supervised 데이터에서 간단한 신경망기반 interaction 모델을 사전학습하는 방법론을 연구하였습니다. 

 

Dehghani et al. (2017b)는 IR에서 weak supervised 학습을 처음 연구하였습니다. 그들은 BM25에 의하여 자동적으로 생성된 노이즈가 섞인 수십억개의 학습데이터에 neural interaction model을 학습시켰습니다. 모델의 입력은 쿼리-문서 쌍이며, 모델의 아키텍처는 간단한 FFN 신경망입니다. point wise 학습과 parwise 학습은 모두 weak supervised setting에서 진행됩니다. 실험은 weak supervision을 사용하여 학습된 신경망 모델이 BM25를 능가할수 있음을 보여주었습니다. 

 

그 이유에 대해 파악하기 위하여 Zamani and Croft (2018)는 위험 최소화 프레임워크(risk minimization framework)의 관점에서 weak supervision을 이론적으로 분석하였고, 그 효율성(effectiveness)를 입증하고자 하였습니다. 

 

최근, Zhang et al. (2020b)는 BERT 사용한 reinforcement weak supervision 방법론인, ReInfoSelect를 제안하였습니다. ReInfoSelect는 강화학습을 통한 BERT기반 ranker를 학습하기위하여 구조화된 anchor-문서 쌍을 선택하는 selector 모델을 학습합니다. 여기서 ranking 성능(예: NDCG)를 보상으로 사용합니다. 실험은 ReInfoSelect에 의해 학습된 neural ranker는 개인적인 상업 검색 로그에서 훈련된 neural ranker의 효율성과 맞댈수 있음을 보여주었습니다.

 

6.2.2 Self-supervised Learning

자기지도(Self-supervised) 학습은 지도학습과 비지도학습의 혼합형으로 볼 수 있습니다. 자기지도학습의 기본 아이디어는 입력값의 한 일부를 다른 부분으로부터 예측하는 것이며, 목적함수는 다운스트림 과제의 목적함수와 같지 않습니다. 따라서 학습 데이터의 레이블은 특정한 과제의 것과 동일하지 않고 데이터 자체에서 가져오는 경우가 많습니다(IR의 연관성 평가와 같이). 자기지도학습이라는 학습 패러다임은 지도학습과 완전히 같습니다. 

 

  최근 BERT나 StructBERT와 같은 사전학습 interaction model의 PTM은 문장의 순서를 예측함으로써 두 문장에 있는 일관성 관계(coherence relationship)를 학습하는것을 목표로 합니다. 

 

특히 2개의 문장을 입력값으로 하며, interaction model을 Next Sentence Prediction(NSP)과제 또는 Sentence Order Prediction(SOP) 과제로 사전학습합니다. 그러나, 일관성 관계(coherence relationship)는  IR에서 가장 중요한 요구사항이라고 할 수 있는 연관성(relevance)와는 상당히 다릅니다. 따라서 PTM을 설계하는 연구자들은 IR을 위한 PTM을 위해 아래와 같은 2가지 주요 주제로 기획하였습니다. 

 

1) Pre-training Objectives

  연관성(Relevance)는 IR에서 중요한 개념이지만 구체적으로 정의하기가 쉽지 않습니다.  연관성에 근접할수 있는 목적 함수로 어떤 것을 삼을 수 있을까요?

 

Ma et al. (2021b)  query likelihood model(QL)에서 인사이트를 얻어서 ad-hoc retrieval을 위한 사전학습 과제인 ROP(Representative wOrds Prediction)을 제안하였으며, 이로부터 사전훈련된 모델은 PROP QL입니다. QL에서는 쿼리가 "이상적인(ideal)"문서로부터 생성된 대표적인(representative) 텍스트의 일부라고 가정합니다. 즉 "representativess"를 모델링함으로써 쿼리와 문서간의 연관성을 추출할 수 있다는 것이죠. 이 가정을 입증하기위하여 ROP는 다항 유니그램 언어모델( multinomial unigram language model)에 따라서 단어 세트의 쌍을 샘플링하고, 트랜스포머 모델로 pariwise preference를 예측하도록 하였습니다. 실험결과 PORP 모델은 BERT나 ICT와 같이 다양한 ad-hoc retrieval 과제에서 사전훈련된 모델을 능가하는 성능을 기록하였습니다. 게다가 zero-shop과 few-shot 환경에서 모두 PROP는 파인튜닝없이 Gov2에서 BM25보다 높은 성능을 보였습니다. 

 

Ma et al. (2021c)은  ROP 과제 구성을 위해 고전적인 유니그램 언어모델을 대신 BERT를 활용하는 B-PROP 을 제안하였습니다. divergence-from-randomness idea (Amati and Rijsbergen, 2002)에 영감을 받아 그들은 대표 단어(representative words)를 샘플하기 위해 BERT의 [CLS] 토큰 어텐션을 활용하여 contrastive 방법론을 제안하였습니다. 실험에서 B-PROP는 다운스트림과제의 ranking 데이터셋들에서 PROP보다 더 나은 성능을 보였습니다.  

 

Ma et al. (2021d)은 HARP 모델을 제안하였는데, 샘플링을 하는 방법 자체가 데이터에 노이즈를 줄 수 있으므로 샘플링 자체를 anchor 텍스트와  하이퍼링크로 대체하였습니다. 실험결과, HARP는 MS-MARCO 문서검색 데이터셋와 TREC DL에서 PROP보다 더 좋은 성능을 기록하였습니다. 

 

대부분의 연구가 2-stage 학습 패러다임을 따르고있기 때문에, 모델의 off-the-shelf 파라미터들은 파인튜닝 과정에서 크게 업데이트 될 수 있습니다. 이 모델이 배운 지식이 무엇인지는 아직 조사되지 않은 상태입니다. 이를위해  Chen et al.(2022)는 IR의 기본 명제를 모델학습에 통합하여, ARES라는 모델을 제안하였습니다. 그들은, ARES의 학습을 위하여 특정한 IR의 명제나 휴리스틱이 들어간 학습 샘플을 생성하였습니다. 실험결과 ARES는 지도학습 데이터가 제한적일 때 적은 자원의 시나리오에서 좋은 성능을 나타냈습니다.

 

 

2) Model Architectures

6.1.2 섹션에서 긴 텍스트를 다루기위해 설계된 사전학습 언어모델(PTM)은 interaction 모델에 마찬가지로 적용될 수 있습니다. IR에서 새로운 interaction 모델을 설계하기 위한 연구는 많이 진행되지 않았는데, 그 이유는  트랜스포머의 self-attention 메카니즘이 텍스트들 간의 상호작용에 대한 솔루션을 이미 제공하고있기 때문입니다. 파인튜닝 단계에서 MacAvaney et al. (2020)는 cross-encoder 아키텍처에서 낮은 layers의 쿼리와 문서 사이의 attention flow를 막는 방법론을 제안했습니다. 그들은 문서 representation을 미리 계산하고 re-ranking을 위한 추론의 속도를 높일 수 있습니다. 

 

 

6.3 Summary

  최근 몇 년간, 트랜스포머 기반의 사전훈련 언어모델(PTM)을 파인튜닝하는 방법은 그 효율성과 편리성으로 인해 IR의 거의 모든 부분에서 지배적인 방법론이었습니다. 그러나 다른 IR 과제에서의 성능 향상은 여전히 제한적일 수밖에 없는데, 그 이유는 PTM의 사전훈련 목적함수가 마스킹된 토큰 또는 문장의 순서를 예측하는 등 언어의 일관성(language coherence)을 학습하도록 설계되었기 때문입니다. 

  IR을 위한 더 나은 사전학습 패러다임을 도출하기 위하여, IR을 위한 최신 사전학습 언어모델(PTM)을 설계하고자 하는 연구가 진행되고 있으며, 여기에는  2가지 줄기가 존재합니다.

  첫째는, IR의 요구사항과 비슷한 사전학습 목적함수를 찾는 것입니다. 다양한 목적함수가 소개되고 IR 과제에서 유용하다는것이 입증되었지만, 그러나 이러한 목표함수가 이론적 근거 부족에 대한 IR 요구 사항을 얼마나 잘 충족시키는지는 여전히 확실하지 않습니다. 게다가 몇몇 사전학습 목적함수는 weak learning에 강하게 연관되어있는데, 이는 이 둘이 모두 IR의 휴리스틱한 규칙에 의존하기 때문입니다. 그리고 이 두가지 학습 전략의 차이점에 대해서는 여전히 연구되지 않았습니다. 

 

두번째는 쿼리와 문서 간의 이질적인 구조를 만족시키기 위한 새로운 모델 아키텍처를 설계하는 것입니다. 이 방향으로는 아직 많은 연구가 진행되지 않았으며, 대부분의 모델들도 원래 BERT 모델에 작은 변화를 만든것에 불과합니다. 그 이유는 BERT모델이 대용량의 코퍼스에 이미 잘 학습되어 있고, 완전히 다시 설계된 아키텍처를 만들기에는 학습 비용이 너무 많이 들기 때문입니다. 뿐만 아니라 트랜스포머 아키텍처의 기초에 대한 심도있는 분석이 필요하고, IR의 관점에서 보는 아키텍처 설계 기준에 대해서도 다시 생각해야하기 때문입니다. 

 

  결과적으로, 사전학습 목적함수와 아키텍처 이 2가지에 대한 근본적인 질문은 IR의 연관성(relevance)라는 개념에 있습니다. 이러한 관점에서 휴리스틱한 실습위주의 학습 목적함수와 모델 아키텍처 보다는 연관성의 정의에 대한 체계적인 연구가 더 필요하다는 것을 강조합니다.

댓글