자연어처리(NLP)/LM(Language Model)5 [NLP][논문리뷰] Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context https://arxiv.org/pdf/1901.02860.pdf 오늘 소개할 Transformer XL은 ACL 2019에 발표된 논문으로, 기존의 Transformer 모델이 가지고 있는 ‘고정된 길이의 문맥(fixed-length context)'이라는 한계점을 개선하되 시간적인 일관성(temporal coherence)을 파괴하지 않는 선에서 새로운 아키텍처를 제시한 논문입니다. 이 논문의 저자는 유명한 언어모델인 XLNET과 정확히 동일한 저자들이 작성하였는데요, XLNET은 당시 2019년 20개 NLP task에서 bert를 넘어섰고, 18개 task에서 SOTA를 달성했습니다. XLNET의 프리퀄로 알려진 transformer-XL을 살펴보겠습니다. 1. 등장 배경 1) 언어모델에서의 오래.. 2021. 6. 9. [NLP][논문리뷰] XLNet: Generalized Autoregressive Pretrainingfor Language Understanding https://arxiv.org/pdf/1906.08237.pdf 최근 양방향 컨텍스트에 대한 모델링이 가능해짐과 함께, BERT와 같은 Denoising autoencoding 기반의 사전학습 방식은 Auto-regressive 언어 모델링 기반의 사전학습 방식보다 더 나은 성능을 달성하였습니다. 그러나 BERT의 경우 마스크로 입력값을 손상시켜 학습해야만 하는데, 이는 마스크 된 토큰들 간의 dependency를 반영하지 못하며, 또한 pretrain에 존재하는 [MASK] 심볼이 실제 데이터로 finetune할때는 존재하지 않는다는 문제도 존재합니다. 저자는 이러한 AR과 AE의 장단점을 고려한 Auto-regressive 사전훈련 방법인 XLNet을 제안하였습니다. (1) factorization.. 2021. 6. 9. [NLP][기초개념] 사전 훈련(Pre-training) 언어 모델 아래 사이트의 글들을 참고하여 이해한 개념을 정리하였으며, wikidocs의 내용을 주로 참고하고, 언어모델과 관련된 개념들은 wikidocs의 글을 요약 정리한점을 미리 말씀드립니다. https://wikidocs.net/108730 https://www.analyticsvidhya.com/blog/2017/06/transfer-learning-the-art-of-fine-tuning-a-pre-trained-model/ http://jalammar.github.io/illustrated-bert/ 1. 사전훈련이란? - NLP 분야에서 많이 등장하는, '사전 훈련(Pre-trianing)' 개념에 대해서 이해하기 쉽게 설명해보고자 합니다. - 사전 훈련이라는 개념은 NLP분야에만 한정된 것이 아니라 .. 2021. 5. 29. [NLP][논문리뷰] ALBERT: A lite BERT for self-supervised learning of language representations 이번 글에서는 구글과 도요타에서 작년 2020년 ICLR에 발표한 논문인 'ALBERT: A lite BERT for self-supervised learning of language representations'에 대해서 리뷰하도록 하겠습니다. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases becom.. 2021. 5. 29. [NLP] BERT(버트) 이번 글에서는 BERT의 원리에 대해서 깊게 살펴보고자 합니다. 이번 글을 작성하기위해서 참고한 글 리스트는 아래와 같습니다. 1) KoreaUniv DSBA 08-5: BERT https://www.youtube.com/watch?v=IwtexRHoWG0 2) http://jalammar.github.io/illustrated-bert/ 1. BERT(Bidirectional Encoder Representations from Transformers)란? 1.1 등장 배경 - 트랜스포머의 등장으로 인한 기계번역 분야에서의 성과로 인해서, 트랜스포머는 다른 분야에서도 LSTM을 대체할 수 있는 후보로 대두되었습니다. - 그러나 트랜스포머의 인코더-디코더 구조는 기계번역 task에는 아주 완벽하지만, 만약.. 2021. 5. 26. 이전 1 다음