DL/NLP

Transformer to T5 (두 줄 history, 2018 ~ 2019)

scone 2024. 7. 18. 20:34

출처 : DSBA 유투브, 이유경님 발표

 

Seq2Seq

  • Neural Machine Translation
  • Encoder - Decoder 구조의 모델 (RNN 기반의)

Attention + Seq2Seq

  • Neural Machine Translation
  • Decoder가 Source Sentence 의 중요한 정보에 집중하게 하자.

Transformer

  • Neural Machine Translation
  • Self Attention, Multi-Head Attention

GPT - 1

  • Task Agnostic
  • Transformer Decoder Block
  • 언어 자체를 이해할 수 있는 좋은 Representation을 학습해보자!
  • Pre training을 맞춘 뒤, Fine Tuning을 통해 Task를 다뤄보자 라고 제안.

BERT

  • Task Agnostic; Pretraining + Finetuning
  • Transformer Encoder Block
  • 언어를 더 잘 이해하기 위해, Bidirectional 하게 맥락을 파악해보자!
  • 당시 모든 NLP Task 에서 SOTA

GPT - 2

  • Task Agnostic
  • Zero shot task transfer
  • 언어를 정확히 학습했다면, Finetuning 없이 Zeroshot 만으로 좋은 성능을 낼 수 있다~!
  • 7가지 NLP Task 에서 SOTA (특히 Generation)

XLNet

  • Task Agnostic
  • BERT 이후 큰 성능향상을 보인 첫 모델
  • BERT 와 GPT를 합친 모델 ( AE, AutoEncoder + AR, AutoRegressive )
  • Factorization order를 고려하여 양방향 학습
  • AR formula를 통해 BERT 한계 극복

RoBERTa

  • Task Agnostic
  • 가장 최적화된 BERT를 만들어보자!
  • BERT를 Underfitting 되어있다고 가정 후, 학습 시간, Batch, Train DATA 증가

MASS

  • Task Agnostic
  • BERT와 GPT를 합친 모델 (AE + AR)
  • Encoder와 Decoder에 상반된 Masking
    • Decoder : Encoder에서 masking된 단어 예측
    • Encoder : Masking되지 않은 단어 깊은 이해
    • Encoder, Decoder의 joint training 장려

BART

  • Task Agnostic
  • BERT와 GPT를 합친 모델 (AE + AR)
  • Encoder에 다양한 Noising을 추가한 Text Generation Task에서 SOTA 달성

MT-DNN

  • Task Agnostic
  • Based on BERT
  • Multitask Learning 을 통해 Universal한 representation을 생성하는 모델
  • Pretrain 단계에서 Multitask Learning 진행 -> 모든 NLP Task 에 Robust 한 모델 만들 수 있다.

T5

  • Task Agnostic
  • Encoder - Decoder Transformer ( AE + AR )
  • 모든 NLP Task를 통합할 수 있도록, Text to text 프레임워크를 사용하자.

 

* AE? AR?

 

 

  • AE의 단점
    • [MASK] token 이 독립적으로 예측 됨.
    • token 사이의 Dependency 학습할 수 없음.
    • Finetuning 과정에서 [Mask] Token이 등장하기 않기 때문에, Pretraining과 Finetuning 사이에 discrepancy 발생함.
  • AR의 단점
    • 단일 방향 정보만 이용하여 학습 가능함.

 

모델들이 위 단점을 어떻게 해결하였고 어떻게 개선하였는지는 출처의 유투브에 소개되어 있다.