최대 1 분 소요

AAAI 2023년의 “AMOM: Adaptive Masking over Masking for Conditional Masked Language Model”이란 논문에 대한 리뷰입니다.

기존의 seq2seq 모델에서 decoder는 AR 모델 구조를 가질 수 밖에 없었던 것을 MLM구조로 제안한 것이 CMLM입니다.

  • 그렇기에 본 페이퍼를 읽을 때 decoder 부분과 encoder 부분을 구분하고 있어야 합니다.

골자는 masking을 adaptive 해서 CMLM를 학습시키겠다는 것입니다.

  • 그래서 adaptive “X” masking은 흔히 BERT에서 하던 MLM으로 생각할 수 있습니다.
    • input sequence X에 대한 masking이기 때문입니다.
  • adaptive Y masking은 AR이 아닌 모델에서 예측할 때 low confidence token을 masking하고 다시 refine할 때 사용하는 masking을 말합니다.
    • 말 그대로 학습할 때 masking한 것을 푸는 방식으로 해결하는 것에서 MLM이라고 할 수 있지만 AR모델이기 때문에 target sequence Y에 대한 masking이라고 불립니다.
  • 중요한 점은 이 두가지의 masking이 서로 연관되어 한다는 점, 그리고 masking ratio를 고정하지 않는다는 점에서 adaptiveness를 가진다는 점입니다.

  • Paper Review post Notion Link

댓글남기기