Artificial Intelligence/Paper

Improving Language Understanding by Generative Pre-Training

geum 2023. 1. 15. 23:41

๐Ÿ’ฌ ๋…ผ๋ฌธ ๋‚ด์šฉ๊ณผ ์ด ๊ธ€์— ๋Œ€ํ•œ ์˜๊ฒฌ ๊ณต์œ , ์˜คํƒˆ์ž ์ง€์  ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํŽธํ•˜๊ฒŒ ๋Œ“๊ธ€ ๋‚จ๊ฒจ์ฃผ์„ธ์š” !

๐Ÿ’ฌ โ—พ ๊ธฐํ˜ธ๋Š” ์›๋ฌธ ๋‚ด์šฉ์ด๋ฉฐ, โ—ฝ ๊ธฐํ˜ธ๋Š” ๊ธ€ ์ž‘์„ฑ์ž์˜ ๊ฐœ์ธ์ ์ธ ์ƒ๊ฐ์ž…๋‹ˆ๋‹ค.


์›๋ฌธ: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

 

Abstract

โ—พ ์ž์—ฐ์–ด ์ƒ์„ฑ(NLG) ๋ถ„์•ผ์—์„œ ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ์ถฉ๋ถ„ํ•˜์ง€๋งŒ ํŠน์ • ํƒœ์Šคํฌ(textual entailment, QA, semantic similarity assessment ๋“ฑ)๋ฅผ ์œ„ํ•ด ๋ ˆ์ด๋ธ” ๋œ ๋ฐ์ดํ„ฐ๋Š” ๋ถ€์กฑํ•จ

โ—พ ๋ ˆ์ด๋ธ” ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ์ƒํ™ฉ์€ ํ•™์Šต๋œ ๋ชจ๋ธ์ด ์ œ๋Œ€๋กœ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ํ•จ

โ—พ ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์— ๋Œ€ํ•ด ์–ธ์–ด ๋ชจ๋ธ์˜ generative pre-training๊ณผ ํƒœ์Šคํฌ๋ณ„ discriminative fine-tuning์„ ์ ์šฉํ•˜๋ฉด ์ž์—ฐ์–ด ์ดํ•ด ํƒœ์Šคํฌ์—์„œ ํฐ ์žฅ์ ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์ž„

โ—พ ์ด์ „์˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋‹ค๋ฅด๊ฒŒ fine-tuning ๊ณผ์ •์—์„œ task-aware input transformations์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ตœ์†Œํ•œ์œผ๋กœ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ ํšจ๊ณผ์ ์ธ transfer ๋‹ฌ์„ฑ

 

โ—ฝ 'ํšจ๊ณผ์ ์ธ transfer'๋Š” ์ „์ดํ•™์Šต์„ ์˜๋ฏธํ•˜๋Š” ๋“ฏํ•จ

 

Introduction

โ—พ ์–ธ์–ด ์ดํ•ด ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•œ ์ค€์ง€๋„(๋น„์ง€๋„ํ•™์Šต๊ณผ ์ง€๋„ํ•™์Šต ํ•จ๊ป˜ ์‚ฌ์šฉ) ํ•™์Šต ๋ฐฉ๋ฒ• ํƒ์ƒ‰ → ์‚ฌ์ „ํ•™์Šต(๋น„์ง€๋„)+ํŒŒ์ธํŠœ๋‹(์ง€๋„)

โ—พ ์•ฝ๊ฐ„์˜ ์กฐ์ •๋งŒ์œผ๋กœ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ณดํŽธ์ ์ธ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์—ฐ๊ตฌ ๋ชฉํ‘œ

โ—พ Transformer ๋ชจ๋ธ ๊ตฌ์กฐ ์‚ฌ์šฉ → Transformer ๋ชจ๋ธ์€ ํ…์ŠคํŠธ์˜ ์žฅ๊ธฐ ์˜์กด์„ฑ ๋ฌธ์ œ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๊ตฌ์กฐํ™”๋œ ๋ฉ”๋ชจ๋ฆฌ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์— ๊ฑธ์ณ ์ข‹์€ ์ „์ด ์„ฑ๋Šฅ ๋ณด์ž„

 

โ—ฝ Structured memory: ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ ์ธก๋ฉด์—์„œ์˜ ์žฅ์ ! ์œผ๋กœ ์ดํ•ดํ•จ

 

Related Work

โ€ป ํ‚ค์›Œ๋“œ๋งŒ ์ •๋ฆฌ

 

โ—พ NLP๋ฅผ ์œ„ํ•œ ์ค€์ง€๋„ํ•™์Šต

โ—พ ๋น„์ง€๋„ ์‚ฌ์ „ํ•™์Šต

โ—พ ๋ณด์กฐ(auxiliary) ํ•™์Šต ๋ชฉํ‘œ ์„ค์ • → [์˜ˆ์‹œ] semantic role labeling ํƒœ์Šคํฌ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด POS tagging, chunking, named entity recognition ๋“ฑ์˜ ์„œ๋ธŒ ํƒœ์Šคํฌ๋ฅผ ์‚ฌ์šฉํ•œ ์—ฐ๊ตฌ๊ฐ€ ์žˆ์Œ

 

Framework

1. Unsupervised pre-training

โ—พ ์‚ฌ์ „ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค๋ฅผ ์ด์šฉํ•ด ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต

โ—พ ๊ธฐ๋ณธ์ ์ธ ์–ธ์–ด ๋ชจ๋ธ ๋ชฉ์ ํ•จ์ˆ˜ ์‚ฌ์šฉ → i-1๋ฒˆ์งธ ํ† ํฐ(๋˜๋Š” ๋‹จ์–ด)๊นŒ์ง€์˜ ๋‚ด์šฉ์„ ์ฐธ๊ณ ํ•ด์„œ i๋ฒˆ์งธ์— ์˜ฌ ํ† ํฐ์˜ likelihood๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ 

โ—พ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  P(~)๋Š” ์•„๋ž˜ ๊ณผ์ •์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜์—ฌ ์–ป์–ด์ง($h_{0}$์€ ์ดˆ๊ธฐ ์ƒํƒœ์ด๊ธฐ ๋•Œ๋ฌธ์— ํ•œ๋ฒˆ๋งŒ ์ˆ˜ํ–‰)

 

โ—ฝ Context window size: ๋ฌธ๋งฅ ํŒŒ์•…์„ ์œ„ํ•ด ์ฃผ๋ณ€์— ์žˆ๋Š” ๋ช‡ ๊ฐœ์˜ ๋‹จ์–ด๋ฅผ ๋ณผ ๊ฒƒ์ธ๊ฐ€?

 

2. Supervised fine-tuning

โ—พ Unsupervised pre-training ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚จ ํ›„ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ง€๋„ํ•™์Šต ํƒœ์Šคํฌ์— ๋งž๊ฒŒ ์กฐ์ •

โ—พ ์ด ๋‹จ๊ณ„์—์„œ์˜ ๋ชฉ์ ํ•จ์ˆ˜๋Š” ์ฃผ์–ด์ง„ m๊ฐœ์˜ ํ† ํฐ์„ ๋ณด๊ณ  ๋ ˆ์ด๋ธ” y์˜ ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ

 

โ—พ ์ง€๋„ํ•™์Šต ํŒŒ์ธํŠœ๋‹์ด์ง€๋งŒ ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ๋ณด์กฐ ํƒœ์Šคํฌ๋กœ ํ•จ๊ป˜ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ, 1) ์ง€๋„ํ•™์Šต ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ 2) ํ•™์Šต ์†๋„ ์ฆ๊ฐ€์˜ ์žฅ์ ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•จ

โ—พ ์ตœ์ข… ๋ชฉ์ ํ•จ์ˆ˜๋Š” ์•„๋ž˜์™€ ๊ฐ™์Œ

 

3. Task-specific input transformations

โ—พ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์ด ์—ฐ์†์ ์ธ ํ…์ŠคํŠธ ์‹œํ€€์Šค๋กœ ํ•™์Šต๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— QA๋‚˜ textual entailment์™€ ๊ฐ™์€ ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•ด์„œ๋Š” ์•ฝ๊ฐ„์˜ ๋ณ€ํ˜• ํ•„์š”

โ—พ ์ด์ „ ์—ฐ๊ตฌ๋“ค์€ ํƒœ์Šคํฌ๋ณ„๋กœ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆ → ์ด ๋ฐฉ๋ฒ•์€ ๋งŽ์€ ์–‘์˜ task-specificํ•œ ๊ตฌ์กฐ ๋งŒ๋“ค์–ด๋‚ด๋ฉฐ, ํƒœ์Šคํฌ๋ณ„ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ์ „์ด ํ•™์Šต์ด ์ ์šฉ๋˜์ง€ ์•Š์Œ

โ—พ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ํƒœ์Šคํฌ๋ณ„ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ๋ผ ์ˆœ์„œ๊ฐ€ ์žˆ๋Š” ์‹œํ€€์Šค๋ฅผ ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” traversal-style ์ ‘๊ทผ ๋ฐฉ๋ฒ• ์‚ฌ์šฉ

โ—พ ๋ชจ๋“  ๋ณ€ํ™˜๋œ ์ž…๋ ฅ์€ ๋žœ๋คํ•˜๊ฒŒ ์ดˆ๊ธฐํ™” ๋œ ์‹œ์ž‘ ํ† ํฐ <s>, ์ข…๋ฃŒ ํ† ํฐ <e>๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์Œ

 

Experiments

1. Setup

Unsupervised pre-training

โ—พ ๋‹ค์–‘ํ•œ ์žฅ๋ฅด&๊ธธ๊ณ  ์—ฐ์†์ ์ธ ๋ฌธ์žฅ์œผ๋กœ ์ด๋ฃจ์–ด์ง„ BooksCorpus ๋ฐ์ดํ„ฐ์…‹๊ณผ 1B Word Benchmark(alternative dataset)๋กœ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ์Œ

 

Model specifications

โ—พ ๋ชจ๋ธ ๊ตฌ์กฐ๋Š” ๋Œ€๋ถ€๋ถ„ original transformer๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ → transformer์˜ ๋””์ฝ”๋”(๋งˆ์Šคํ‚น ์…€ํ”„ ์–ดํ…์…˜ ํ—ค๋“œ ํฌํ•จ) 12๊ฐœ๋กœ ์ด๋ฃจ์–ด์ง

โ—พ BPE ๋‹จ์–ด ์‚ฌ์ „์„ ์ผ๊ณ  Original transformer์—์„œ ์‚ฌ์šฉํ•œ sinusoidal position embedding ๋Œ€์‹  ํ•™์Šต๋œ position embedding ์‚ฌ์šฉ

 

Fine-tuning details

โ—พ ๋น„์ง€๋„ ์‚ฌ์ „ํ•™์Šต ๊ณผ์ •์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ

 

2. Supervised fine-tuning

โ€ป ๊ฒฐ๊ณผ ์ •๋ฆฌ ํ‘œ๋Š” ์ƒ๋žต

Natural Language Inference

โ—พ Textual entailment๋ผ๊ณ ๋„ ๋ถ€๋ฅด๋Š” ์ž์—ฐ์–ด ์ถ”๋ก (NLI)์€ ์Œ์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฌธ์žฅ๋“ค์„ ์ฝ๊ณ  ๋‘ ๋ฌธ์žฅ์˜ ๊ด€๊ณ„-entailment, contradiction, neutral-๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฌธ์ œ

โ—พ Lexical entailment, coreference, lexical&synthetic ambiguity ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํƒœ์Šคํฌ ์ˆ˜ํ–‰ ์‹œ ์–ด๋ ค์›€ ์กด์žฌ

โ—พ ์ด์ „ SOTA ๋ชจ๋ธ๋“ค๋ณด๋‹ค GPT๊ฐ€ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„ → ์—ฌ๋Ÿฌ ๋ฌธ์žฅ์„ ์ดํ•ดํ•˜๊ณ  ์–ธ์–ด์  ๋ชจํ˜ธํ•จ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์ข‹๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•จ

 

Question answering and commonsense reasoning

โ—พ ๊ธธ์ด๊ฐ€ ๊ธด ๋ฌธ๋งฅ๋„ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์ž„

 

Semantic Similarity (paraphrase detection)

โ—พ Semantic similarity๋Š” ๋‘ ๋ฌธ์žฅ์˜ ์˜๋ฏธ๊ฐ€ ๊ฐ™์€์ง€ ๋‹ค๋ฅธ์ง€ ์˜ˆ์ธกํ•˜๋Š” ํƒœ์Šคํฌ์— ํ•ด๋‹น

โ—พ ๋ถ€์ • ์ดํ•ด, ๊ตฌ๋ฌธ์˜ ๋ชจํ˜ธํ•จ ์ดํ•ด๊ฐ€ ํƒœ์Šคํฌ๋ฅผ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ฆ

โ—พ ์„ธ ์ข…๋ฅ˜์˜ semantic similarity ํƒœ์Šคํฌ์—์„œ SOTA ๋‹ฌ์„ฑ

 

Classification

โ—พ ๋‘ ๊ฐœ์˜ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ๋Œ€ํ•ด ๋ชจ๋ธ ์„ฑ๋Šฅ ํ‰๊ฐ€

 

Analysis

Impact of number of layers transferred

 

Zero-shot Behaviors

โ—พ ์ €์ž๋“ค์€ Transformer์˜ ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต์ด ํšจ๊ณผ์ ์ธ ์ด์œ ์— ๋Œ€ํ•ด ์˜๋ฌธ์„ ๊ฐ€์ง

โ—พ ์œ„์˜ ์˜๋ฌธ์— ๋Œ€ํ•œ ๋‘ ๊ฐ€์ง€ ๊ฐ€์„ค์„ ์„ธ์›€ → 1) ๊ธฐ๋ณธ์ ์ธ ์ƒ์„ฑ ๋ชจ๋ธ์ด ๋ชจ๋ธ์˜ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ํ‰๊ฐ€์— ์‚ฌ์šฉํ•œ ์—ฌ๋Ÿฌ ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต์„ ์ง„ํ–‰ํ•  ๊ฒƒ & 2) Transformer์˜ structured attentional memory๊ฐ€ LSTM๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์ „์ดํ•™์Šต์„ ์ž˜ ๋˜๊ฒŒ ํ•จ

โ—พ ๊ธฐ๋ณธ์ ์ธ ์ƒ์„ฑ ๋ชจ๋ธ์„ ์ด์šฉํ•ด ์—ฌ๋Ÿฌ ํƒœ์Šคํฌ๋“ค์„ ์ง€๋„ํ•™์Šต ํŒŒ์ธํŠœ๋‹ ์—†์ด ์ˆ˜ํ–‰ํ•˜๋Š” ํœด๋ฆฌ์Šคํ‹ฑํ•œ ๋ฐฉ๋ฒ• ๊ณ ์•ˆ

 

Ablation studies

 

Conclusion

โ—พ Generative pre-training๊ณผ discriminative fine-tuning์„ ํ†ตํ•ด ๋‹จ์ผ task-agnostic ๋ชจ๋ธ๋กœ ์ž์—ฐ์–ด ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ

โ—พ ์ œ์•ˆํ•œ ๋ชจ๋ธ์„ ๊ธธ๊ณ  ์—ฐ์†์ ์ธ ํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง„ ๋‹ค์–‘ํ•œ ๋ง๋ญ‰์น˜๋กœ ์‚ฌ์ „ํ•™์Šต ์‹œ์ผฐ์„ ๋•Œ, ๋ชจ๋ธ์€ ์žฅ๊ธฐ ์ข…์†์„ฑ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ๊ณผ ์ง€์‹์„ ๊ฐ€์กŒ๊ณ  ์—ฐ๊ตฌ์— ์‚ฌ์šฉํ•œ 12๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹ ์ค‘ 9๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ SOTA ๋‹ฌ์„ฑ

โ—พ ์ฐจ๋ณ„ํ™”๋œ ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด ๋น„์ง€๋„ (์‚ฌ์ „)ํ•™์Šต์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ๋จธ์‹ ๋Ÿฌ๋‹ ์—ฐ๊ตฌ๊ณ„์—์„œ ์ค‘์š”ํ•œ ๋ชฉํ‘œ๊ฐ€ ๋˜์–ด ์™”์Œ

โ—พ ์ด ๋…ผ๋ฌธ์€ ๋น„์ง€๋„ํ•™์Šต์œผ๋กœ ์ข‹์€ ์„ฑ๋Šฅ์„ ์–ป๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์˜€๊ณ  ์ œ์•ˆํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์—์„œ ์–ด๋–ค ๋ชจ๋ธ์„ ์“ฐ๊ณ , ์–ด๋–ค ๋ฐ์ดํ„ฐ์…‹์„ ์“ธ ๋•Œ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€์ง€์— ๋Œ€ํ•œ ํžŒํŠธ๋„ ์ œ๊ณตํ•จ

 

๐ŸŒ  ์ฐธ๊ณ  ์ž๋ฃŒ

https://youtu.be/o_Wl29aW5XM