๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ !
๐ฌ โฝ ๊ธฐํธ๋ ๊ธ ์์ฑ์์ ๊ฐ์ธ์ ์ธ ์๊ฐ์ด๋ฉฐ, โพ ๊ธฐํธ๋ ์๋ฌธ ๋ด์ฉ์ ๋๋ค.
์๋ฌธ: https://arxiv.org/pdf/1907.11692.pdf
Abstract
โพ BERT ๋ชจ๋ธ์ ๋ํด ์ฌํ ์ฐ๊ตฌ(replication study)๋ฅผ ์ํํ๋ฉด์ ๋ฐ์ดํฐ ํฌ๊ธฐ, ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๊ฒฐ๊ณผ์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง ํ์ธ
โพ BERT ๋ชจ๋ธ์ด undertrained๋์์ผ๋ฉฐ BERT ๋ชจ๋ธ ๋ฐํ ์ดํ ๋์จ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ์๊ฒ ๋จ
โพ ์ด์ ์ ๊ฐ๊ณผ๋๋ ๋ชจ๋ธ ์ค๊ณ ๋ฐฉ๋ฒ์ ์ค์์ฑ์ ๋ํด ๊ฐ์กฐ
โฝ RoBERTa๋ผ๋ ์๋ก์ด ๋ชจ๋ธ์ ์ ์ํ ๊ฒ์ด ์๋๋ผ BERT ๋ชจ๋ธ์ ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ผ๋ก ํ์ต์ํจ ๊ฒ
โฝ 'undertrained'๋ผ๋ ํํ์ ๋ง๊ทธ๋๋ก ์ ๊ฒ ํ์ต(epoch ์๊ฐ ์ ์๋ค๋์ง)๋๋ค๋ ๊ฑธ๋ก ์ดํดํ๊ณ ํ์ต์ ๋ ์์ผ๋ณด๋๊น ์ฑ๋ฅ์ด ์ข์์ง๋๋ผ~ ์ด๋ฐ ๋ป์ผ๋ก ํด์
Introduction
โพ Self-training ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ ELMo, GPT, BERT, XLM, XLNet์ ๋๋ผ์ด ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค
โพ 1) ํ์ต ๋น์ฉ์ด ๋น์ธ๊ธฐ ๋๋ฌธ์ ํ๋์ด ์ ํ์ ์ด๊ณ 2) ๋ค์ํ ํฌ๊ธฐ์ private ๋ฐ์ดํฐ๋ก ํ์ต๋๋ ๊ฒฝ์ฐ๋ ์๊ธฐ ๋๋ฌธ์ ์ ํํ ์ด๋ค ์์๊ฐ ์ฑ๋ฅ ํฅ์์ ํฌ๊ฒ ๊ธฐ์ฌํ๋์ง ํ์ธํ๊ธฐ ์ด๋ ค์
โพ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋๊ณผ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ์ ์ํฅ์ ๋ํ careful evaluation์ ํฌํจํ๋ BERT ์ฌํ ์ฐ๊ตฌ ๊ฒฐ๊ณผ ์ ์
โพ BERT๊ฐ undertrain ๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๊ณ ๋ ๋์ ํ์ต ๋ฐฉ๋ฒ์ ์ ์ฉํ BERT ๋ชจ๋ธ์ธ RoBERTa ์ ์
โพ RoBERTa ๋ชจ๋ธ์ ์ ์ฉํ ๋ฐฉ๋ฒ - 1) ํฐ ๋ฐฐ์น์ ๋ง์ ๋ฐ์ดํฐ๋ก ์ค๋ ํ์ต, 2) ๋ค์ ๋ฌธ์ฅ ์์ธก ํ์คํฌ ์ญ์ , 3) ๊ธด ๋ฌธ์ฅ์ผ๋ก ํ์ต, 4) ํ์ต ๋ฐ์ดํฐ์ ์ ์ฉ๋๋ ๋ง์คํน ํจํด์ dynamicํ๊ฒ ๋ณ๊ฒฝ
โพ ํ์ต ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ์ฃผ๋ ์ํฅ์ ๋ ์ ๊ด์ฐฐํ๊ธฐ ์ํด ์๋ก์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ง
โพ ์ฌ๋ฌ ํ์คํฌ์์ SOTA๋ฅผ ๋ฌ์ฑํ๊ธฐ ๋๋ฌธ์ BERT์ ๋ง์คํน ์ธ์ด ๋ชจ๋ธ ํ์ต ๋ชฉํ๊ฐ ๊ฒฝ์๋ ฅ์ ๊ฐ์ง๊ณ ์์
โฝ 1) → ์ด๊ฒ์ ๊ฒ ํ๋ํ๋ฉด์ ๋งค๋ฒ ์ฌํ์ต์ํค๊ธฐ์ ์๊ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ฆผ
โฝ BERT์ ๋ง์คํน ์ธ์ด ๋ชจ๋ธ ํ์ต ๋ชฉํ๊ฐ ๊ฒฝ์๋ ฅ์ ๊ฐ์ง๊ณ ์์ → masked language model pretrain ๋ฐฉ๋ฒ์ผ๋ก ์ฑ๋ฅ ํฅ์์ ์ด๋์ด ๋ผ ์ ์๋ค๋ ์๋ฏธ๋ก ํด์
Background
BERT ๋ ผ๋ฌธ์ ๋ํ ๊ฐ๋จ ์์ฝ์ด๊ธฐ ๋๋ฌธ์ ์๋ต
Experimental Setup
์๋ต
Training Procedure Analysis
โพ BERT ๋ชจ๋ธ์ ์ฑ๊ณต์ ์ธ ์ฌ์ ํ์ต์ ๊ฐ์ฅ ํฐ ์ํฅ์ ์ฃผ๋ ์์๋ฅผ ์์๋ณด๊ธฐ ์ํด BERT base ๋ชจ๋ธ๋ก ์คํ ์งํ
1. Static vs Dynamic Masking
โพ ์๋ณธ BERT ๋ชจ๋ธ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์์ ๋ง์คํน์ ํ ๋ฒ๋ง ์ํํ์ฌ single static mask ์์ฑ
โพ ๊ฐ epoch๋ง๋ค ๋์ผํ ๋ง์คํฌ๋ฅผ ์ฌ์ฉํ์ง ์๋๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ 10๋ฒ ๋ณต์ ํ์ฌ 40 epochs ๋์ 10๊ฐ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ง์คํน → ํ์ต ์ค์ ๋์ผํ ๋ง์คํฌ๋ฅผ 4๋ฒ ๊ฐ์ง
โพ ํ์ตํ ๋๋ง๋ค ๋ง์คํน ํจํด์ ์์ฑํด์ ์ ์ฉํ๋ dynamic masking๊ณผ static masking ๋น๊ต
โพ Dynamic masking์ ๋ ๋ง์ด ์ฌ์ ํ์ต์ํค๊ฑฐ๋ ๋ ํฐ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ ๋ ์ค์ํจ
โพ Dynamic masking์ด static masking(์๋ณธ BERT ๋ชจ๋ธ์ด ์ด ๋ฐฉ๋ฒ)๊ณผ ๋น์ทํ๊ฑฐ๋ ์ข ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์๊ธฐ ๋๋ฌธ์ ๋จ์ ์คํ์ ๋ชจ๋ dynamic masking ์ฌ์ฉ
โฝ A๋ผ๋ ์ํ์ค ํ๋์ ๋ง์คํน ๋ฐฉ์ 1 ์ ์ฉํด์ ํ์ต์ํค๊ณ ๋ง์คํน ๋ฐฉ์ 2 ์ ์ฉํด์ ํ์ต์ํค๊ณ ์ด ๊ณผ์ ๋ฐ๋ณต
2. Model Input Format and Next Sentence Prediction
โพ ์๋ณธ BERT ๋ชจ๋ธ์ ์ฌ์ ํ์ต ์ํค๋ ๋จ๊ณ์์ ๋ชจ๋ธ์ ๋์ผํ๊ฑฐ๋ ์๋ก ๋ค๋ฅธ ๋ฌธ์์์ ์ฐ์์ ์ผ๋ก ์ํ๋ง๋ ๋ ๊ฐ์ ๋ฌธ์ฅ์ ๊ด์ฐฐ
โพ ๋ ๋ฌธ์ฅ์ด ๊ฐ์ ๋ฌธ์์์ ์ํ๋ง๋๊ฑด์ง, ๋ค๋ฅธ ๋ฌธ์์์ ์ํ๋ง๋๊ฑด์ง ๋ง์ถ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ต๋จ
โพ NSP loss๋ฅผ ์ ๊ฑฐํ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๋ค๋ ์ฐ๊ตฌ๊ฐ ์์๊ธฐ ๋๋ฌธ์ BERT ๋ชจ๋ธ ํ์ต์ ์ค์ํ ์์๋ก ์๊ฐ๋์ด ์์ง๋ง NSP loss์ ํ์์ฑ์ ์๋ฌธ์ ์ ๊ธฐํ ์ฐ๊ตฌ ์กด์ฌ
โพ NSP loss ์กด์ฌ ์ ๋ฌด์ ๋ฐ๋ฅธ ์ฐจ์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด ํ์ต ํํ๋ฅผ ๋ฐ๊พธ๋ฉด์ ์คํ ์งํ ํ ๊ฒฐ๊ณผ ํ์ธ → segment pair+NSP, sentence pair+NSP, full-sentences, doc-sentences
โพ Sentence-pair ํํ ๋ง๊ณ ๋จ์ผ ๋ฌธ์ฅ์ ์ฌ์ฉํ ๊ฒฝ์ฐ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์์์ ์ฑ๋ฅ์ด ์ ํ๋จ
3. Training with large batches
โพ ์ ๊ฒฝ๋ง ๊ธฐ๊ณ ๋ฒ์ญ์ ๊ดํ ์ด์ ์ฐ๊ตฌ๋ค์ ํ์ต๋ฅ ์ด ์ ์ ํ๊ฒ ์ฆ๊ฐํ ๋ ๋ฏธ๋ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ํฌ๊ฒ ์ค์ ํ๋ ๊ฒ์ด ์ต์ ํ ์๋์ end-task ์ฑ๋ฅ์ ๋๋ค ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์
โพ BERT base ๋ชจ๋ธ์ ๋ฐฐ์น ํฌ๊ธฐ 256, 1M(million) step์ผ๋ก ํ์ต ์งํ
โพ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ํค์์ ํ์ต์์ผฐ์ ๋์ ํผํ๋ ์ํฐ ๋น๊ต → end-task ์ ํ๋์ ๋ง์คํน๋ ์ธ์ด ๋ชจ๋ธ๋ง์ ํผํ๋ ์ํฐ๋ฅผ ํฅ์์ํจ๋ค๋ ๊ฒ์ ํ์ธ
โพ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ํฌ๊ฒ ์ก์์ ํ์ต์ ์งํํ๋ ๊ฒ์ ๋ณ๋ ฌํ๋ ์ฌ์
4. Text Encoding
โพ Byte-Pair ์ธ์ฝ๋ฉ์ ๋ฌธ์ ๋จ์ ํํ๊ณผ ๋จ์ด ๋จ์ ํํ์ ํจ๊ป ์ฐ๋ ๋ฐฉ์์ผ๋ก ์์ฐ์ด ๋ง๋ญ์น(corpora)์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋์ฉ๋์ ์ดํ ์ฒ๋ฆฌ ๊ฐ๋ฅ
โพ ์๋ณธ BERT ๊ตฌํ์ฒด๋ ํด๋ฆฌ์คํฑ ํ ํฐํ ๊ท์น์ผ๋ก ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ๊ณ 3๋ง ๊ฐ์ ๋ฌธ์ ๋จ์ BPE ์ดํ๋ฅผ ํ์ต์ ์ฌ์ฉ
โพ ์ ๋ ฅ์ ์ถ๊ฐ์ ์ธ ์ ์ฒ๋ฆฌ๋ ํ ํฐํ ์์ด 5๋ง ๊ฐ์ ์๋ธ์๋ ์ ๋์ ํฌํจํ๊ณ ์๋ ๋ฐ์ดํธ ๋จ์ BPE ๋จ์ด ์ฌ์ ์ ์ฌ์ฉํ์ฌ ํ์ต์ํด
RoBERTa
โพ ์ด์ ์น์ ์์ end-task ์ฑ๋ฅ์ ํฅ์์ํค๋ BERT ์ฌ์ ํ์ต ๋จ๊ณ์ ์์ ๋ฐฉ๋ฒ์ ์ ์ → ์ ์ํ ๊ฐ์ ์ฌํญ์ ๋ชจ๋ ํฉ์น๊ณ ํฉ์น ํ์ ์ํฅ์ ํ๊ฐ
โพ ์ ์ํ ์์ ์ฌํญ์ ๋ชจ๋ ํฉ์น ๊ตฌ์กฐ๋ฅผ RoBERTa๋ผ๊ณ ๋ถ๋ฆ → Robustly optimized BERT approach
โพ ์์์ ์ ์ํ ๊ฐ์ ์ฌํญ ์ธ์๋ ์ด์ ์ฐ๊ตฌ์์ ์ค์์ฑ์ด ๊ฐ์กฐ๋์ง ์์ ๋ ๊ฐ์ง ์์ 1) ์ฌ์ ํ๋ จ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ ์์ 2) ํ์ต ํ์ ์กฐ์ฌ
โพ GLUE, SQuAD, RACE์์ RoBERTa์ ๊ฒฐ๊ณผ ํ์ธ
Related Work
์๋ต
Conclusion
โพ BERT ๋ชจ๋ธ์ ์ฌ์ ํ์ต ์ํฌ ๋ design decisions์ ๋ค์ํ๊ฒ ํ๋ฉด์ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ
โพ 1) ํ์ต ๋ฐ์ดํฐ ์๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๊ณ ์ค๋ ํ์ต์ํฌ ๋, 2) NSP ํ์คํฌ๊ฐ ์์ ๋, 3) ๊ธด ๋ฌธ์ฅ์ผ๋ก ํ์ต์ํฌ ๋, 4) ํ์ต ๋ฐ์ดํฐ์ ์ ์ฉ๋๋ ๋ง์คํน ํจํด์ ๋ค์ด๋๋ฏนํ๊ฒ ๋ณ๊ฒฝํ์ ๋ ์ฑ๋ฅ์ด ํฅ์๋จ
โพ RoBERTa๋ GLUE๋ก ์ฌ๋ฌ ํ์คํฌ์ ๋ํ ํ์ธํ๋์ ํ์ง ์๊ณ SQuAD์ ๋ํ ์ถ๊ฐ์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฐ์ง ์์๋ GLUE, RACE, SQuAD์์ SOTA ๋ฌ์ฑ
โพ ์์ ๊ฒฐ๊ณผ๋ค์ design decisions์ ์ค์์ฑ์ด ๊ฐ๊ณผ๋์๋ค๋ ๊ฒ์ ๋งํด์ฃผ๊ณ ์์ผ๋ฉฐ BERT์ ์ฌ์ ํ์ต ๋ชฉํ๊ฐ ์ฌ์ ํ ๊ฒฝ์๋ ฅ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค