๋ ผ๋ฌธ ์ฝ๊ธฐ ์์ฒญ ์ค๋๋ง์ด๋ค. BERT ๊ธฐ๋ฐ ์ฌ์ ํ์ต๋ชจ๋ธ ์จ๋ณด๋ ค๊ณ ํ๋ค๊ฐ ๊ด๋ จ ๊ฐ๋ ์ ํ๋๋ ๋ชจ๋ฅด๋๊น ๋ชจ๋ธ ์ ๋ ฅ์ ๋ญ๊ฐ ๋ค์ด๊ฐ๋์ง~ ๋ฐ์ดํฐ ํํ๋ฅผ ์ด๋ป๊ฒ ๋ง์ถฐ์ค์ผ ํ๋์ง~ ๋๋ฌด ์ดํด๊ฐ ์ ๋๋ ๋ถ๋ถ์ด ๋ง์์ ๋ ผ๋ฌธ ๋ณธ์ธ๋ฑํ์ํด
๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ !
์๋ฌธ: https://arxiv.org/pdf/1810.04805.pdf
โ : ์์ง ๋ฐ๋ก ์ดํด ์ ๋๋ ๋ถ๋ถ
Introduction
1. Pre-train๋ ์ธ์ด ํํ์ ํ์ ํ์คํฌ์ ์ ์ฉํ๋ 2๊ฐ์ง ๋ฐฉ๋ฒ ์กด์ฌ
1) Feature-based
- Pre-trained representations์ ํฌํจํ๋ task-specific ๊ตฌ์กฐ๋ฅผ ์ถ๊ฐ์ ์ธ feature๋ก ์ฌ์ฉ
- ์: ELMo
2) Fine-tuning
- ์ต์ํ์ task-specific ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๊ณ ์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ค์ ํ์ธํ๋ํ์ฌ ํ์ ํ์คํฌ์ ์ ์ฉ
- ์: GPT
2. (๋ ผ๋ฌธ์ด ๋์จ ์์ ์์) ์ฐ๊ตฌ๋ ๋ฐฉ๋ฒ๋ค์ ์ฌ์ ํ์ต๋ ํํ์ ํจ๊ณผ๋ฅผ ์ ํ์ฉํ์ง ๋ชปํ๊ณ ์์
- ์ผ๋ฐ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ์ต๋ ์ ์ฝ์ ๋จ๋ฐฉํฅ(unidirectional)์ด๋ผ๋ ๊ฒ์ด๊ณ ์ด ํน์ง์ ์ฌ์ ํ์ต์ ์ฌ์ฉ๋ ์ ์๋ ๋ชจ๋ธ ๊ตฌ์กฐ ์ ํ
- ์๋ฏธ ํ์ ์ ์ํด ์์ชฝ์ ๋ชจ๋ ํ์ธํด์ผ ํ๋ ํ์คํฌ์ ๋งค์ฐ ์น๋ช ์
3. ๋จ๋ฐฉํฅ ์ธ์ด๋ชจ๋ธ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋ฐฉํฅ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ๋ BERT ์ ์
BERT
* ๋ชจ๋ธ ์์ฝ
1) ๊ตฌ์กฐ
- ๋ฉํฐ๋ ์ด์ด ์๋ฐฉํฅ ํธ๋์คํฌ๋จธ ์ธ์ฝ๋
- ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ฐ๋ผ $ BERT_{BASE} $, $ BERT_{LARGE} $๋ก ๊ตฌ๋ถ
2) ์ ๋ ฅ/์ถ๋ ฅ ํํ
- ๋ค์ํ ํ์ ํ์คํฌ์ ์ ์ฉ๋ ์ ์๋๋ก ํ๊ธฐ ์ํด ํ๋์ ํ ํฐ ์ํ์ค์์ ๋จ์ผ ๋ฌธ์ฅ, ํ ์์ ๋ฌธ์ฅ์ ๋ชจ๋ ๋ํ๋ผ ์ ์๋๋ก ํจ
- '๋ฌธ์ฅ'์ด๋ผ๋ ํํ์ ์ผ๋ฐ์ ์ธ ๋ฌธ์ฅ(์์ด์ ๊ฒฝ์ฐ ์ฃผ์ด+๋์ฌ+...)์ด ์๋๋ผ ์ฐ์์ ์ธ text span
- '์ํ์ค'๋ผ๋ ํํ์ BERT์ ์ ๋ ฅ ๋จ์๋ฅผ ์๋ฏธํ๋ฉฐ ๋จ์ผ ๋ฌธ์ฅ์ผ์๋ ์๊ณ ๋ ๊ฐ์ ๋ฌธ์ฅ์ผ์๋ ์์
- ๋ชจ๋ ์ํ์ค๋ [CLS] ํ ํฐ์ผ๋ก ์์ํ๋ฉฐ ์ด ํ ํฐ์ ๋์ํ๋ ๋ง์ง๋ง hidden state๋ ๋ถ๋ฅ ํ์คํฌ๋ฅผ ์ํ ๊ฒฐํฉ๋ ์ํ์ค ํํ์ผ๋ก ์ฌ์ฉ๋จ
- ์์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฌธ์ฅ์ ํ๋์ ์ํ์ค๋ก ํฉ์ณ์ง๊ณ ๋ ๊ฐ์ง ๋จ๊ณ๋ก ๋ฌธ์ฅ ๊ตฌ๋ถ
โ ์คํ์ ํ ํฐ [SEP]๋ก ๋ ๋ฌธ์ฅ ๊ตฌ๋ถ
โก ๋ชจ๋ ํ ํฐ์ ํ์ต๋ ์๋ฒ ๋ฉ์ ์ถ๊ฐํ์ฌ ํ ํฐ์ด ๋ฌธ์ฅ A์ ์ํ๋์ง B์ ์ํ๋์ง ํ์
1. Pre-training BERT
* BERT๋ ๊ธฐ์กด์ ๋จ๋ฐฉํฅ(LTR, RTL) ์ธ์ด๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ 2๊ฐ์ง ๋น์ง๋ํ์ต ํ์คํฌ๋ก ์ฌ์ ํ์ต์ด ์งํ๋์์
1) Task #1: Masked LM
- deep bidirectional model์ด LTR, RTL๋ณด๋ค ๋ ๊ฐ๋ ฅํ๋ค๋ ๊ฒ์ ์ง๊ด์ ์ผ๋ก ์ ์ ์์ง๋ง, ์ ํต์ ์ธ ์ธ์ด๋ชจ๋ธ์ ์ค์ง ํ ๋ฐฉํฅ์ผ๋ก๋ง ํ์ต๋๊ณ ์์
- deep bidirectional model์ ํ์ต์ํค๊ธฐ ์ํด ์ ๋ ฅ ํ ํฐ์ ๋๋คํ ๋น์จ(๋ ผ๋ฌธ์์๋ 15%)๋ก ๋ง์คํน → Masked LM(MLM) ๊ณผ์
- mask token์ ๋์ํ๋ ์ต์ข hidden vectors๋ vocabulary๋ฅผ ํตํด ์ถ๋ ฅ softmax ์ธต์ผ๋ก ๋ค์ด๊ฐ
- input ์ ์ฒด๋ฅผ ์ฌ๊ตฌ์ฑํ์ง ์๊ณ ๋ง์คํน๋ ๋จ์ด๋ง์ ์์ธก
- [MASK] ํ ํฐ์ด ํ์ธํ๋ ์ ๋ํ๋์ง ์๊ธฐ ๋๋ฌธ์ ์ฌ์ ํ์ต๊ณผ ํ์ธํ๋ ์ฌ์ด ๋ถ์ผ์น๊ฐ ๋ฐ์ํ๋ ๋จ์ ์กด์ฌ
- ์์์ ์ธ๊ธ๋ ๋จ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ์ด ๋ง์คํน ์ ํญ์ [MASK] ํ ํฐ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ๋๋ค ํ ํฐ 10%๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ ์ ํ๋ i๋ฒ์งธ ํ ํฐ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๋ฐฉ์ ์ ์ฉ
2) Task #2: Next Sentence Prediction (NSP)
- Question Answering(QA), Natural Language Inference(NLI)๋ ๋ ๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ ์ดํด๊ฐ ์ค์ํจ
- ๋ฌธ์ฅ ์ฌ์ด ๊ด๊ณ๋ฅผ ์ดํดํ ์ ์๋๋ก ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด ๋จ์ผ ์ธ์ด corpus์์ ์์ฑ๋ ์ ์๋ ์ด์งํ๋ NSP ํ์คํฌ ์ฌ์ฉ
- ์ฌ์ ํ์ต ์ ๋ฌธ์ฅ A, B๋ฅผ ๊ณ ๋ฅผ ๋ B์ 50%๋ ์ค์ ๋ก ๋ฌธ์ฅ A์ ๋ค์ ๋์ค๋ ๋ฌธ์ฅ, 50%๋ corpus์์ ์ ํ๋ ๋๋ค ๋ฌธ์ฅ
2. Fine-tuning BERT
* ํธ๋์คํฌ๋จธ์ attention ๋ฉ์ปค๋์ฆ์ด BERT ์
์ถ๋ ฅ์ ์ ์ ํ ๊ตํ์ผ๋ก ๋ง์ ํ์ ํ์คํฌ ์์
์ ๋ชจ๋ธ๋งํ ์ ์๊ฒ ํ๊ธฐ ๋๋ฌธ์ fine-tuning์ ๊ฐ๋จํ ๊ฐ๋
(...์ธ๋ฐ ์ด ๋ฌธ์ฅ์ด ๋ํํ
๋ ์ ๊ฐ๋จํจ)
- ๊ฐ ํ์คํฌ๋ง๋ค task-specificํ ์ ๋ ฅ/์ถ๋ ฅ์ BERT ๋ชจ๋ธ์ ๋ฃ๊ณ end-to-end๋ก ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ fine-tune
- ์ถ๋ ฅ ๋จ๊ณ์์ ํ ํฐ ํํ์ token-level ํ์คํฌ(sequence tagging, QA)๋ฅผ ์ํ ์ถ๋ ฅ ๋ ์ด์ด๋ก ๋ค์ด๊ฐ
- [CLS]๋ ๋ถ๋ฅ(entailment, sentiment analysis)๋ฅผ ์ํ ์ถ๋ ฅ ๋ ์ด์ด๋ก ๋ค์ด๊ฐ
- ์ฌ์ ํ์ต๊ณผ ๋น๊ตํ ๋ fine-tuning ๋น์ฉ์ด ๋ฎ์ ํธ
Experiments & Ablation Studies
์๋ต
'Artificial Intelligence > Paper' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
RoBERTa: A Robustly Optimized BERT Pretraining Approach (0) | 2023.01.05 |
---|---|
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks (0) | 2022.11.07 |
Sequence to Sequence Learning with Neural Networks (0) | 2022.03.21 |
Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks (0) | 2022.03.03 |
Attention Is All You Need (0) | 2022.02.23 |