Artificial Intelligence/Paper

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

geum 2022. 11. 7. 14:51

๐Ÿ’ฌ ๋…ผ๋ฌธ ๋‚ด์šฉ๊ณผ ์ด ๊ธ€์— ๋Œ€ํ•œ ์˜๊ฒฌ ๊ณต์œ , ์˜คํƒˆ์ž ์ง€์  ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํŽธํ•˜๊ฒŒ ๋Œ“๊ธ€ ๋‚จ๊ฒจ์ฃผ์„ธ์š” !


์›๋ฌธ: https://aclanthology.org/D19-1670.pdf

 

1 Introduction

โ–ช๏ธ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹์€ ๊ฐ์„ฑ๋ถ„์„๋ถ€ํ„ฐ ํ† ํ”ฝ ๋ถ„๋ฅ˜๊นŒ์ง€ NLP ๋ถ„์•ผ์—์„œ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, ๋†’์€ ์„ฑ๋Šฅ์€ ์ข…์ข… ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ํ€„๋ฆฌํ‹ฐ์— ๋‹ฌ๋ ค ์žˆ์Œ

 

โ–ช๏ธ ์ž๋™ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(Automatica data augmentation)์€ ์ปดํ“จํ„ฐ ๋น„์ „๊ณผ ์Œ์„ฑ ๋ถ„์•ผ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋˜์ง€๋งŒ ์–ธ์–ด ๋ณ€ํ™˜์„ ์œ„ํ•œ ์ผ๋ฐ˜์ ์ธ ๊ทœ์น™์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์€ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— NLP ๋ถ„์•ผ์—์„œ ์ผ๋ฐ˜์ ์ธ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์€ ์™„์ „ํžˆ ์—ฐ๊ตฌ๋œ ์ ์ด ์—†์Œ

 

โ–ช๏ธ ๋…ผ๋ฌธ์„ ํ†ตํ•ด EDA(Easy Data Augmentation)๋ผ๊ณ  ๋ถ€๋ฅด๋Š” ๊ฐ„๋‹จํ•œ NLP ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ• ์ œ์‹œ

 

2 EDA

โ–ช๏ธ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ฃผ์–ด์ง„ ๋ฌธ์žฅ์— ๋Œ€ํ•ด ์•„๋ž˜ ๋ฐฉ์‹ ์ค‘ ๋žœ๋คํ•˜๊ฒŒ ๊ณ ๋ฅธ ํ•˜๋‚˜๋ฅผ ์ ์šฉํ•จ

 

 

โ‘  Synonym Replacement(SR): ๋ฌธ์žฅ์œผ๋กœ๋ถ€ํ„ฐ ๋žœ๋คํ•˜๊ฒŒ ๋ถˆ์šฉ์–ด๊ฐ€ ์•„๋‹Œ n๊ฐœ์˜ ๋‹จ์–ด ์„ ํƒ ํ›„ ๊ฐ ๋‹จ์–ด๋ฅผ ์ž„์˜๋กœ ์„ ํƒํ•œ ๋™์˜์–ด ์ค‘ ํ•˜๋‚˜๋กœ ๊ต์ฒด

* Synonym: ๋™์˜์–ด, ์œ ์˜์–ด

 

โ‘ก Random Insertion(RI): ๋ฌธ์žฅ์—์„œ ๋ถˆ์šฉ์–ด๊ฐ€ ์•„๋‹Œ ๋‹จ์–ด๋“ค ์ค‘ ๋žœ๋คํ•˜๊ฒŒ ๊ณ ๋ฅธ ๋‹จ์–ด์˜ synonym์„ ์ฐพ์•„์„œ ๋ฌธ์žฅ ๋‚ด ๋žœ๋คํ•œ ์œ„์น˜์— ์‚ฝ์ž…ํ•˜๋Š” ๊ณผ์ •์„ n๋ฒˆ ๋ฐ˜๋ณต

 

โ‘ข Random Swap(RS): ๋ฌธ์žฅ ๋‚ด ๋‘ ๋‹จ์–ด๋ฅผ ๊ณ ๋ฅด๊ณ  ๋‹จ์–ด ๊ฐ„ ์œ„์น˜๋ฅผ ๋ฐ”๊พธ๋Š” ๊ณผ์ • n๋ฒˆ ๋ฐ˜๋ณต

 

โ‘ฃ Random Deletion(RD): p์˜ ํ™•๋ฅ ๋กœ ๋ฌธ์žฅ ๋‚ด ๋‹จ์–ด ์‚ญ์ œ

 

โ–ช๏ธ ๊ธด ๋ฌธ์žฅ์€ ์งง์€ ๋ฌธ์žฅ๋ณด๋‹ค ๋งŽ์€ ๋‹จ์–ด๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋…ธ์ด์ฆˆ(์œ„์—์„œ ๋งํ•œ ๋ณ€๊ฒฝ ์ž‘์—…์„ ์˜๋ฏธํ•˜๋Š” ๊ฒƒ ๊ฐ™์Œ)๊ฐ€ ์žˆ๋”๋ผ๋„ ์›๋ž˜์˜ ๋ ˆ์ด๋ธ”์„ ์œ ์ง€ํ•˜๋ฉฐ ๋…ธ์ด์ฆˆ์— ๋œ ์˜ˆ๋ฏผํ•œ ํŠน์„ฑ์ด ์žˆ์Œ

 

โ–ช๏ธ ์œ„์˜ ์ƒํ™ฉ์„ ์œ„ํ•ด SR, RI, RS์˜ ๊ฒฝ์šฐ ๋ฌธ์žฅ์˜ ๊ธธ์ด l๊ณผ ๋ฌธ์žฅ ๋‚ด ๋ณ€ํ™”๋  ๋‹จ์–ด์˜ ๋น„์œจ์„ ์˜๋ฏธํ•˜๋Š” α๋ฅผ ์ด์šฉํ•ด n(=αl)์„ ๊ฒฐ์ •

 

โ–ช๏ธ ์›๋ณธ ๋ฌธ์žฅ์— ๋Œ€ํ•ด $n_aug$๊ฐœ์˜ ์ฆ๊ฐ• ๋ฌธ์žฅ ์ƒ์„ฑ

 

โ–ช๏ธ ๋™์˜์–ด/์œ ์˜์–ด ๊ต์ฒด ๋ฐฉ๋ฒ•์€ ์ด์ „์—๋„ ๋งŽ์ด ์‚ฌ์šฉ๋œ ๋ฐฉ๋ฒ•์ด์ง€๋งŒ, ๋…ผ๋ฌธ ์ €์ž๋“ค์ด ์•Œ๊ณ  ์žˆ๋Š” ํ•œ๋„ ๋‚ด์—์„œ RI, RS, RD ๊ธฐ๋ฒ•์€ ๋‹ค์–‘ํ•˜๊ฒŒ ์—ฐ๊ตฌ๋œ ์ ์ด ์—†๋‹ค๊ณ  ์–ธ๊ธ‰

 

3 Experimental Setup

โ–ช๏ธ EDA ๊ธฐ๋ฒ•์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด 5๊ฐœ์˜ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋ฒค์น˜๋งˆํฌ, 2๊ฐœ์˜ ๋ชจ๋ธ ๊ตฌ์กฐ ์„ ์ •

 

1. Benchmark Datasets

(1) SST-2: Standford Sentiment Treebank

(2) CR: Customer reviews

(3) SUBJ: Subjectivity/objectivity dataset

(4) TREC: Question type dataset

(5) PC: Pro-Con dataset

 

โ–ช๏ธ EDA ๊ธฐ๋ฒ•์ด ๋ฐ์ดํ„ฐ์…‹์ด ์ ์€ ๊ฒฝ์šฐ ๋”์šฑ ํšจ๊ณผ์ ์ด๋ผ๊ณ  ๊ฐ€์ • → $N_train$={500, 2,000, 5,000, ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ} ์•ˆ์— ์ •์˜๋œ ๊ฐ’์œผ๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ ์ง€์ •ํ•˜์—ฌ ์‹คํ—˜

 

2. Text Classification Models

(1) RNN

(2) CNN

 

4 Results

1. EDA Makes Gains

โ–ช๏ธ EDA๋ฅผ ์ ์šฉํ•˜์ง€ ์•Š์€ ๊ธฐ๋ณธ ๋ชจ๋ธ์˜ ์ •ํ™•๋„์™€ EDA๋ฅผ ์ ์šฉํ•œ ๋ชจ๋ธ์˜ ํ‰๊ท  ์„ฑ๋Šฅ์„ ๋น„๊ตํ–ˆ์„ ๋•Œ ๋ชจ๋“  Training Set Size์—์„œ EDA๋ฅผ ์ ์šฉํ•œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ

2. Training Set Sizing

โ–ช๏ธ ์˜ค๋ฒ„ํ”ผํŒ…์€ ๋ฐ์ดํ„ฐ์…‹์ด ์ ์€ ์ƒํƒœ๋กœ ํ•™์Šตํ•  ๋•Œ ์ž˜ ์ผ์–ด๋‚˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์œผ๋ฉฐ, ์“ธ ์ˆ˜ ์žˆ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋น„์œจ์„ ์ œํ•œํ•˜๋Š” ์‹คํ—˜์„ ํ†ตํ•ด EDA๊ฐ€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ๊ฒฝ์šฐ์— ํšจ๊ณผ์ ์ด๋ผ๋Š” ๊ฒƒ์„ ์ฆ๋ช…

 

โ–ช๏ธ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์˜ ๋น„์œจ์„ {1, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100}์œผ๋กœ ์กฐ์ ˆํ•˜๋ฉด์„œ ํ•™์Šต ์ง„ํ–‰

 

 

3. Does EDA conserve true labels?

โ–ช๏ธ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์‹œ ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ๋ ˆ์ด๋ธ”์€ ์œ ์ง€ํ•˜๋ฉด์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ๋‚ด์šฉ๋งŒ ๋ณ€๊ฒฝ๋˜์–ด์•ผ ํ•จ

 

โ–ช๏ธ ํ•˜์ง€๋งŒ ์ž…๋ ฅ ๋ฌธ์žฅ์ด ๋งŽ์ด ๋ณ€๊ฒฝ๋œ๋‹ค๋ฉด ์›๋ž˜ ๋ฌธ์žฅ์˜ ๋ ˆ์ด๋ธ”์€ ๋”์ด์ƒ ์œ ํšจํ•˜์ง€ ์•Š์Œ → EDA ๊ธฐ๋ฒ•์ด ๋ฌธ์žฅ์˜ ์›๋ž˜ ์˜๋ฏธ๋ฅผ ๋ฐ”๊พธ๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ ์‹œ๊ฐ์  ์ ‘๊ทผ ์‹œ๋„

 

โ–ช๏ธ ์ฆ๊ฐ• ์—†์ด RNN ๋ชจ๋ธ์„ ์ด์šฉํ•ด pro-con ๋ถ„๋ฅ˜ ํƒœ์Šคํฌ๋ฅผ ํ•™์Šตํ•˜๊ณ  ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์— EDA ๊ธฐ๋ฒ•์„ ์ ์šฉํ•ด ํ•œ ๋ฌธ์žฅ๋‹น 9๊ฐœ์˜ ์ฆ๊ฐ• ๋ฌธ์žฅ ์ƒ์„ฑ

EDA ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ pro-con ๋ฐ์ดํ„ฐ์…‹์ด ์ „๋ฐ˜์ ์œผ๋กœ ์›๋ณธ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ผ๊ฐ

 

 

4. Ablation Study: EDA Decomposed

โ–ช๏ธ ๊ฐ ๊ธฐ๋ฒ•์ด ์„ฑ๋Šฅ์— ์ฃผ๋Š” ์˜ํ–ฅ์„ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•œ Ablation study ์ˆ˜ํ–‰

 

โ–ช๏ธ ๋™์˜์–ด/์œ ์˜์–ด ๊ต์ฒด(SR) ๊ธฐ๋ฒ•์€ ๋‹ค๋ฅธ ์„ธ ๊ฐ€์ง€ ๊ธฐ๋ฒ•๋ณด๋‹ค ๋งŽ์ด ์‚ฌ์šฉ๋˜์–ด ์™”๊ธฐ ๋•Œ๋ฌธ์— EDA์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ๋Œ€๋ถ€๋ถ„ SR์—์„œ ์˜จ๋‹ค๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๊ฐ ๊ธฐ๋ฒ•๋ณ„๋กœ ๋‚˜๋ˆ„์–ด ์‹คํ—˜

 

โ–ช๏ธ ํ•˜๋‚˜์˜ ๊ธฐ๋ฒ•์— ๋Œ€ํ•ด '๋ฌธ์žฅ ๋‚ด ๋ณ€๊ฒฝ๋˜๋Š” ๋‹จ์–ด์˜ ๋น„์œจ'๋งŒ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ฐ”๊พธ๋ฉด์„œ ๊ฒฐ๊ณผ ํ™•์ธ

 

 

โ–ช๏ธ ์œ„์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•ด 4๊ฐ€์ง€ EDA ๊ธฐ๋ฒ•์ด ๋ชจ๋‘ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ์  ํ™•์ธ ๊ฐ€๋Šฅ

 

5. How much augmentation?

โ–ช๏ธ ๊ธฐ์กด ๋ฌธ์žฅ ํ•˜๋‚˜ ๋‹น ์ƒ์„ฑ๋œ ์ฆ๊ฐ• ๋ฌธ์žฅ ์ˆ˜ $n_aug$๊ฐ€ ์„ฑ๋Šฅ์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ผ์น˜๋Š”์ง€ ํ™•์ธํ•˜๊ณ ์ž ํ•จ

 

โ–ช๏ธ ์ ์€ ๋ฐ์ดํ„ฐ์…‹: ์ฆ๊ฐ• ๋ฌธ์žฅ์ด ๋งŽ์„์ˆ˜๋ก ๋” ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ

 

โ–ช๏ธ ๋งŽ์€ ๋ฐ์ดํ„ฐ์…‹: 4๊ฐœ ์ด์ƒ์˜ ์ฆ๊ฐ• ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋„์›€์ด ๋˜์ง€ ์•Š์Œ

 

 

5 Comparison with Related Work

์ƒ๋žต