๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ !
๐ฌ โพ ๊ธฐํธ๋ ์๋ฌธ ๋ด์ฉ์ด๋ฉฐ, โฝ ๊ธฐํธ๋ ๊ธ ์์ฑ์์ ๊ฐ์ธ์ ์ธ ์๊ฐ์ ๋๋ค.
์๋ฌธ: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
Abstract
โพ ์์ฐ์ด ์์ฑ(NLG) ๋ถ์ผ์์ ๋ ์ด๋ธ์ด ์๋ ํ ์คํธ ๋ฐ์ดํฐ๋ ์ถฉ๋ถํ์ง๋ง ํน์ ํ์คํฌ(textual entailment, QA, semantic similarity assessment ๋ฑ)๋ฅผ ์ํด ๋ ์ด๋ธ ๋ ๋ฐ์ดํฐ๋ ๋ถ์กฑํจ
โพ ๋ ์ด๋ธ ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํฉ์ ํ์ต๋ ๋ชจ๋ธ์ด ์ ๋๋ก ์ฑ๋ฅ์ ๋ฐํํ์ง ๋ชปํ๊ฒ ํจ
โพ ๋ ์ด๋ธ์ด ์๋ ๋ค์ํ ํ ์คํธ ์ฝํผ์ค์ ๋ํด ์ธ์ด ๋ชจ๋ธ์ generative pre-training๊ณผ ํ์คํฌ๋ณ discriminative fine-tuning์ ์ ์ฉํ๋ฉด ์์ฐ์ด ์ดํด ํ์คํฌ์์ ํฐ ์ฅ์ ์ ์ป์ ์ ์๋ค๋ ๊ฒ์ ๋ณด์
โพ ์ด์ ์ ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ fine-tuning ๊ณผ์ ์์ task-aware input transformations์ ์ฌ์ฉํด ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ์ต์ํ์ผ๋ก ๋ณ๊ฒฝํ๋ฉด์ ํจ๊ณผ์ ์ธ transfer ๋ฌ์ฑ
โฝ 'ํจ๊ณผ์ ์ธ transfer'๋ ์ ์ดํ์ต์ ์๋ฏธํ๋ ๋ฏํจ
Introduction
โพ ์ธ์ด ์ดํด ํ์คํฌ๋ฅผ ์ํ ์ค์ง๋(๋น์ง๋ํ์ต๊ณผ ์ง๋ํ์ต ํจ๊ป ์ฌ์ฉ) ํ์ต ๋ฐฉ๋ฒ ํ์ → ์ฌ์ ํ์ต(๋น์ง๋)+ํ์ธํ๋(์ง๋)
โพ ์ฝ๊ฐ์ ์กฐ์ ๋ง์ผ๋ก ๋ค์ํ ํ์คํฌ์ ์ ์ฉํ ์ ์๋ ๋ณดํธ์ ์ธ ํํ์ ํ์ตํ๋ ๊ฒ์ด ์ฐ๊ตฌ ๋ชฉํ
โพ Transformer ๋ชจ๋ธ ๊ตฌ์กฐ ์ฌ์ฉ → Transformer ๋ชจ๋ธ์ ํ ์คํธ์ ์ฅ๊ธฐ ์์กด์ฑ ๋ฌธ์ ๋ฅผ ์ฒ๋ฆฌํ ๋ ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ ์ฑ๋ฅ์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๋ค์ํ ํ์คํฌ์ ๊ฑธ์ณ ์ข์ ์ ์ด ์ฑ๋ฅ ๋ณด์
โฝ Structured memory: ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ ์ธก๋ฉด์์์ ์ฅ์ ! ์ผ๋ก ์ดํดํจ
Related Work
โป ํค์๋๋ง ์ ๋ฆฌ
โพ NLP๋ฅผ ์ํ ์ค์ง๋ํ์ต
โพ ๋น์ง๋ ์ฌ์ ํ์ต
โพ ๋ณด์กฐ(auxiliary) ํ์ต ๋ชฉํ ์ค์ → [์์] semantic role labeling ํ์คํฌ์ ์ฑ๋ฅ ํฅ์์ ์ํด POS tagging, chunking, named entity recognition ๋ฑ์ ์๋ธ ํ์คํฌ๋ฅผ ์ฌ์ฉํ ์ฐ๊ตฌ๊ฐ ์์
Framework
1. Unsupervised pre-training
โพ ์ฌ์ ํ์ต ๋จ๊ณ์์ ๋๊ท๋ชจ ํ ์คํธ ์ฝํผ์ค๋ฅผ ์ด์ฉํด ์ธ์ด ๋ชจ๋ธ ํ์ต
โพ ๊ธฐ๋ณธ์ ์ธ ์ธ์ด ๋ชจ๋ธ ๋ชฉ์ ํจ์ ์ฌ์ฉ → i-1๋ฒ์งธ ํ ํฐ(๋๋ ๋จ์ด)๊น์ง์ ๋ด์ฉ์ ์ฐธ๊ณ ํด์ i๋ฒ์งธ์ ์ฌ ํ ํฐ์ likelihood๋ฅผ ์ต๋ํํ๋๋ก ํ์ตํ๋ ๊ฒ์ด ๋ชฉ์
โพ ์กฐ๊ฑด๋ถ ํ๋ฅ P(~)๋ ์๋ ๊ณผ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ์ฌ ์ป์ด์ง($h_{0}$์ ์ด๊ธฐ ์ํ์ด๊ธฐ ๋๋ฌธ์ ํ๋ฒ๋ง ์ํ)
โฝ Context window size: ๋ฌธ๋งฅ ํ์ ์ ์ํด ์ฃผ๋ณ์ ์๋ ๋ช ๊ฐ์ ๋จ์ด๋ฅผ ๋ณผ ๊ฒ์ธ๊ฐ?
2. Supervised fine-tuning
โพ Unsupervised pre-training ๋จ๊ณ์์ ๋ชจ๋ธ์ ํ์ต์ํจ ํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ง๋ํ์ต ํ์คํฌ์ ๋ง๊ฒ ์กฐ์
โพ ์ด ๋จ๊ณ์์์ ๋ชฉ์ ํจ์๋ ์ฃผ์ด์ง m๊ฐ์ ํ ํฐ์ ๋ณด๊ณ ๋ ์ด๋ธ y์ ํ๋ฅ ์ ์ต๋ํํ๋ ๊ฒ
โพ ์ง๋ํ์ต ํ์ธํ๋์ด์ง๋ง ์ธ์ด ๋ชจ๋ธ๋ง์ ๋ณด์กฐ ํ์คํฌ๋ก ํจ๊ป ์ฌ์ฉํ์ ๋, 1) ์ง๋ํ์ต ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์๊ณผ 2) ํ์ต ์๋ ์ฆ๊ฐ์ ์ฅ์ ์ด ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํจ
โพ ์ต์ข ๋ชฉ์ ํจ์๋ ์๋์ ๊ฐ์
3. Task-specific input transformations
โพ ์ฌ์ ํ์ต ๋ชจ๋ธ์ด ์ฐ์์ ์ธ ํ ์คํธ ์ํ์ค๋ก ํ์ต๋์๊ธฐ ๋๋ฌธ์ QA๋ textual entailment์ ๊ฐ์ ํ์คํฌ๋ฅผ ์ํด์๋ ์ฝ๊ฐ์ ๋ณํ ํ์
โพ ์ด์ ์ฐ๊ตฌ๋ค์ ํ์คํฌ๋ณ๋ก ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ์ → ์ด ๋ฐฉ๋ฒ์ ๋ง์ ์์ task-specificํ ๊ตฌ์กฐ ๋ง๋ค์ด๋ด๋ฉฐ, ํ์คํฌ๋ณ ๊ตฌ์กฐ์ ๋ํ ์ ์ด ํ์ต์ด ์ ์ฉ๋์ง ์์
โพ ์ด ๋ ผ๋ฌธ์์๋ ํ์คํฌ๋ณ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ์๋๋ผ ์์๊ฐ ์๋ ์ํ์ค๋ฅผ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ์ ์๋ ํํ๋ก ๋ณํํ๋ traversal-style ์ ๊ทผ ๋ฐฉ๋ฒ ์ฌ์ฉ
โพ ๋ชจ๋ ๋ณํ๋ ์ ๋ ฅ์ ๋๋คํ๊ฒ ์ด๊ธฐํ ๋ ์์ ํ ํฐ <s>, ์ข ๋ฃ ํ ํฐ <e>๋ฅผ ํฌํจํ๊ณ ์์
Experiments
1. Setup
Unsupervised pre-training
โพ ๋ค์ํ ์ฅ๋ฅด&๊ธธ๊ณ ์ฐ์์ ์ธ ๋ฌธ์ฅ์ผ๋ก ์ด๋ฃจ์ด์ง BooksCorpus ๋ฐ์ดํฐ์ ๊ณผ 1B Word Benchmark(alternative dataset)๋ก ๋ชจ๋ธ์ ํ์ต์์ผฐ์
Model specifications
โพ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๋๋ถ๋ถ original transformer๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํจ → transformer์ ๋์ฝ๋(๋ง์คํน ์ ํ ์ดํ ์ ํค๋ ํฌํจ) 12๊ฐ๋ก ์ด๋ฃจ์ด์ง
โพ BPE ๋จ์ด ์ฌ์ ์ ์ผ๊ณ Original transformer์์ ์ฌ์ฉํ sinusoidal position embedding ๋์ ํ์ต๋ position embedding ์ฌ์ฉ
Fine-tuning details
โพ ๋น์ง๋ ์ฌ์ ํ์ต ๊ณผ์ ์ ํ์ดํผํ๋ผ๋ฏธํฐ ๊ทธ๋๋ก ์ฌ์ฉ
2. Supervised fine-tuning
โป ๊ฒฐ๊ณผ ์ ๋ฆฌ ํ๋ ์๋ต
Natural Language Inference
โพ Textual entailment๋ผ๊ณ ๋ ๋ถ๋ฅด๋ ์์ฐ์ด ์ถ๋ก (NLI)์ ์์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฌธ์ฅ๋ค์ ์ฝ๊ณ ๋ ๋ฌธ์ฅ์ ๊ด๊ณ-entailment, contradiction, neutral-๋ฅผ ํ์ ํ๋ ๋ฌธ์
โพ Lexical entailment, coreference, lexical&synthetic ambiguity ๋ฑ ๋ค์ํ ๋ฌธ์ ๊ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ํ์คํฌ ์ํ ์ ์ด๋ ค์ ์กด์ฌ
โพ ์ด์ SOTA ๋ชจ๋ธ๋ค๋ณด๋ค GPT๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ → ์ฌ๋ฌ ๋ฌธ์ฅ์ ์ดํดํ๊ณ ์ธ์ด์ ๋ชจํธํจ์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ด ์ข๋ค๋ ๊ฒ์ ์๋ฏธํจ
Question answering and commonsense reasoning
โพ ๊ธธ์ด๊ฐ ๊ธด ๋ฌธ๋งฅ๋ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์์ ๋ณด์
Semantic Similarity (paraphrase detection)
โพ Semantic similarity๋ ๋ ๋ฌธ์ฅ์ ์๋ฏธ๊ฐ ๊ฐ์์ง ๋ค๋ฅธ์ง ์์ธกํ๋ ํ์คํฌ์ ํด๋น
โพ ๋ถ์ ์ดํด, ๊ตฌ๋ฌธ์ ๋ชจํธํจ ์ดํด๊ฐ ํ์คํฌ๋ฅผ ์ด๋ ต๊ฒ ๋ง๋ฆ
โพ ์ธ ์ข ๋ฅ์ semantic similarity ํ์คํฌ์์ SOTA ๋ฌ์ฑ
Classification
โพ ๋ ๊ฐ์ ํ ์คํธ ๋ถ๋ฅ ๋ฌธ์ ์ ๋ํด ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ
Analysis
Impact of number of layers transferred
Zero-shot Behaviors
โพ ์ ์๋ค์ Transformer์ ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ์ต์ด ํจ๊ณผ์ ์ธ ์ด์ ์ ๋ํด ์๋ฌธ์ ๊ฐ์ง
โพ ์์ ์๋ฌธ์ ๋ํ ๋ ๊ฐ์ง ๊ฐ์ค์ ์ธ์ → 1) ๊ธฐ๋ณธ์ ์ธ ์์ฑ ๋ชจ๋ธ์ด ๋ชจ๋ธ์ ์ธ์ด ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ํ๊ฐ์ ์ฌ์ฉํ ์ฌ๋ฌ ํ์คํฌ๋ฅผ ์ํํ ์ ์๋๋ก ํ์ต์ ์งํํ ๊ฒ & 2) Transformer์ structured attentional memory๊ฐ LSTM๊ณผ ๋น๊ตํ์ ๋ ์ ์ดํ์ต์ ์ ๋๊ฒ ํจ
โพ ๊ธฐ๋ณธ์ ์ธ ์์ฑ ๋ชจ๋ธ์ ์ด์ฉํด ์ฌ๋ฌ ํ์คํฌ๋ค์ ์ง๋ํ์ต ํ์ธํ๋ ์์ด ์ํํ๋ ํด๋ฆฌ์คํฑํ ๋ฐฉ๋ฒ ๊ณ ์
Ablation studies
Conclusion
โพ Generative pre-training๊ณผ discriminative fine-tuning์ ํตํด ๋จ์ผ task-agnostic ๋ชจ๋ธ๋ก ์์ฐ์ด ์์ฑ ๋ถ์ผ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ํ๋ ์์ํฌ ์ ์
โพ ์ ์ํ ๋ชจ๋ธ์ ๊ธธ๊ณ ์ฐ์์ ์ธ ํ ์คํธ๋ฅผ ๊ฐ์ง ๋ค์ํ ๋ง๋ญ์น๋ก ์ฌ์ ํ์ต ์์ผฐ์ ๋, ๋ชจ๋ธ์ ์ฅ๊ธฐ ์ข ์์ฑ์ ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ๊ณผ ์ง์์ ๊ฐ์ก๊ณ ์ฐ๊ตฌ์ ์ฌ์ฉํ 12๊ฐ์ ๋ฐ์ดํฐ์ ์ค 9๊ฐ์ ๋ฐ์ดํฐ์ ์์ SOTA ๋ฌ์ฑ
โพ ์ฐจ๋ณํ๋ ํ์คํฌ์ ๋ํ ์ฑ๋ฅ ํฅ์์ ์ํด ๋น์ง๋ (์ฌ์ )ํ์ต์ ์ฌ์ฉํ๋ ๊ฒ์ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ๊ณ์์ ์ค์ํ ๋ชฉํ๊ฐ ๋์ด ์์
โพ ์ด ๋ ผ๋ฌธ์ ๋น์ง๋ํ์ต์ผ๋ก ์ข์ ์ฑ๋ฅ์ ์ป๋ ๊ฒ์ด ๊ฐ๋ฅํจ์ ๋ณด์๊ณ ์ ์ํ ์ ๊ทผ ๋ฐฉ์์์ ์ด๋ค ๋ชจ๋ธ์ ์ฐ๊ณ , ์ด๋ค ๋ฐ์ดํฐ์ ์ ์ธ ๋ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์์ง์ ๋ํ ํํธ๋ ์ ๊ณตํจ