๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ !
์๋ฌธ: https://aclanthology.org/D19-1670.pdf
1 Introduction
โช๏ธ ๋จธ์ ๋ฌ๋๊ณผ ๋ฅ๋ฌ๋์ ๊ฐ์ฑ๋ถ์๋ถํฐ ํ ํฝ ๋ถ๋ฅ๊น์ง NLP ๋ถ์ผ์์ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง๋ง, ๋์ ์ฑ๋ฅ์ ์ข ์ข ํ์ต ๋ฐ์ดํฐ์ ์๊ณผ ํ๋ฆฌํฐ์ ๋ฌ๋ ค ์์
โช๏ธ ์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ(Automatica data augmentation)์ ์ปดํจํฐ ๋น์ ๊ณผ ์์ฑ ๋ถ์ผ์์ ๋ง์ด ์ฌ์ฉ๋์ง๋ง ์ธ์ด ๋ณํ์ ์ํ ์ผ๋ฐ์ ์ธ ๊ท์น์ ๋ง๋๋ ๊ฒ์ ์ด๋ ต๊ธฐ ๋๋ฌธ์ NLP ๋ถ์ผ์์ ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์์ ํ ์ฐ๊ตฌ๋ ์ ์ด ์์
โช๏ธ ๋ ผ๋ฌธ์ ํตํด EDA(Easy Data Augmentation)๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฐ๋จํ NLP ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ ์ ์
2 EDA
โช๏ธ ํ์ต ๋ฐ์ดํฐ์ ์์ ์ฃผ์ด์ง ๋ฌธ์ฅ์ ๋ํด ์๋ ๋ฐฉ์ ์ค ๋๋คํ๊ฒ ๊ณ ๋ฅธ ํ๋๋ฅผ ์ ์ฉํจ
โ Synonym Replacement(SR): ๋ฌธ์ฅ์ผ๋ก๋ถํฐ ๋๋คํ๊ฒ ๋ถ์ฉ์ด๊ฐ ์๋ n๊ฐ์ ๋จ์ด ์ ํ ํ ๊ฐ ๋จ์ด๋ฅผ ์์๋ก ์ ํํ ๋์์ด ์ค ํ๋๋ก ๊ต์ฒด
* Synonym: ๋์์ด, ์ ์์ด
โก Random Insertion(RI): ๋ฌธ์ฅ์์ ๋ถ์ฉ์ด๊ฐ ์๋ ๋จ์ด๋ค ์ค ๋๋คํ๊ฒ ๊ณ ๋ฅธ ๋จ์ด์ synonym์ ์ฐพ์์ ๋ฌธ์ฅ ๋ด ๋๋คํ ์์น์ ์ฝ์ ํ๋ ๊ณผ์ ์ n๋ฒ ๋ฐ๋ณต
โข Random Swap(RS): ๋ฌธ์ฅ ๋ด ๋ ๋จ์ด๋ฅผ ๊ณ ๋ฅด๊ณ ๋จ์ด ๊ฐ ์์น๋ฅผ ๋ฐ๊พธ๋ ๊ณผ์ n๋ฒ ๋ฐ๋ณต
โฃ Random Deletion(RD): p์ ํ๋ฅ ๋ก ๋ฌธ์ฅ ๋ด ๋จ์ด ์ญ์
โช๏ธ ๊ธด ๋ฌธ์ฅ์ ์งง์ ๋ฌธ์ฅ๋ณด๋ค ๋ง์ ๋จ์ด๋ก ์ด๋ฃจ์ด์ ธ ์๊ธฐ ๋๋ฌธ์ ๋ ธ์ด์ฆ(์์์ ๋งํ ๋ณ๊ฒฝ ์์ ์ ์๋ฏธํ๋ ๊ฒ ๊ฐ์)๊ฐ ์๋๋ผ๋ ์๋์ ๋ ์ด๋ธ์ ์ ์งํ๋ฉฐ ๋ ธ์ด์ฆ์ ๋ ์๋ฏผํ ํน์ฑ์ด ์์
โช๏ธ ์์ ์ํฉ์ ์ํด SR, RI, RS์ ๊ฒฝ์ฐ ๋ฌธ์ฅ์ ๊ธธ์ด l๊ณผ ๋ฌธ์ฅ ๋ด ๋ณํ๋ ๋จ์ด์ ๋น์จ์ ์๋ฏธํ๋ α๋ฅผ ์ด์ฉํด n(=αl)์ ๊ฒฐ์
โช๏ธ ์๋ณธ ๋ฌธ์ฅ์ ๋ํด $n_aug$๊ฐ์ ์ฆ๊ฐ ๋ฌธ์ฅ ์์ฑ
โช๏ธ ๋์์ด/์ ์์ด ๊ต์ฒด ๋ฐฉ๋ฒ์ ์ด์ ์๋ ๋ง์ด ์ฌ์ฉ๋ ๋ฐฉ๋ฒ์ด์ง๋ง, ๋ ผ๋ฌธ ์ ์๋ค์ด ์๊ณ ์๋ ํ๋ ๋ด์์ RI, RS, RD ๊ธฐ๋ฒ์ ๋ค์ํ๊ฒ ์ฐ๊ตฌ๋ ์ ์ด ์๋ค๊ณ ์ธ๊ธ
3 Experimental Setup
โช๏ธ EDA ๊ธฐ๋ฒ์ ํ๊ฐํ๊ธฐ ์ํด 5๊ฐ์ ํ ์คํธ ๋ถ๋ฅ ๋ฒค์น๋งํฌ, 2๊ฐ์ ๋ชจ๋ธ ๊ตฌ์กฐ ์ ์
1. Benchmark Datasets
(1) SST-2: Standford Sentiment Treebank
(2) CR: Customer reviews
(3) SUBJ: Subjectivity/objectivity dataset
(4) TREC: Question type dataset
(5) PC: Pro-Con dataset
โช๏ธ EDA ๊ธฐ๋ฒ์ด ๋ฐ์ดํฐ์ ์ด ์ ์ ๊ฒฝ์ฐ ๋์ฑ ํจ๊ณผ์ ์ด๋ผ๊ณ ๊ฐ์ → $N_train$={500, 2,000, 5,000, ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ ๋ฐ์ดํฐ} ์์ ์ ์๋ ๊ฐ์ผ๋ก ํ์ต ๋ฐ์ดํฐ์ ํฌ๊ธฐ ์ง์ ํ์ฌ ์คํ
2. Text Classification Models
(1) RNN
(2) CNN
4 Results
1. EDA Makes Gains
โช๏ธ EDA๋ฅผ ์ ์ฉํ์ง ์์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ ํ๋์ EDA๋ฅผ ์ ์ฉํ ๋ชจ๋ธ์ ํ๊ท ์ฑ๋ฅ์ ๋น๊ตํ์ ๋ ๋ชจ๋ Training Set Size์์ EDA๋ฅผ ์ ์ฉํ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์
2. Training Set Sizing
โช๏ธ ์ค๋ฒํผํ ์ ๋ฐ์ดํฐ์ ์ด ์ ์ ์ํ๋ก ํ์ตํ ๋ ์ ์ผ์ด๋๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ, ์ธ ์ ์๋ ํ์ต ๋ฐ์ดํฐ์ ๋น์จ์ ์ ํํ๋ ์คํ์ ํตํด EDA๊ฐ ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ์ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์ฆ๋ช
โช๏ธ ํ์ต ๋ฐ์ดํฐ์ ์ ๋น์จ์ {1, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100}์ผ๋ก ์กฐ์ ํ๋ฉด์ ํ์ต ์งํ
3. Does EDA conserve true labels?
โช๏ธ ๋ฐ์ดํฐ ์ฆ๊ฐ ์ ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ ์ด๋ธ์ ์ ์งํ๋ฉด์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ด์ฉ๋ง ๋ณ๊ฒฝ๋์ด์ผ ํจ
โช๏ธ ํ์ง๋ง ์ ๋ ฅ ๋ฌธ์ฅ์ด ๋ง์ด ๋ณ๊ฒฝ๋๋ค๋ฉด ์๋ ๋ฌธ์ฅ์ ๋ ์ด๋ธ์ ๋์ด์ ์ ํจํ์ง ์์ → EDA ๊ธฐ๋ฒ์ด ๋ฌธ์ฅ์ ์๋ ์๋ฏธ๋ฅผ ๋ฐ๊พธ๋์ง ํ์ธํ๊ธฐ ์ํ ์๊ฐ์ ์ ๊ทผ ์๋
โช๏ธ ์ฆ๊ฐ ์์ด RNN ๋ชจ๋ธ์ ์ด์ฉํด pro-con ๋ถ๋ฅ ํ์คํฌ๋ฅผ ํ์ตํ๊ณ ํ ์คํธ ๋ฐ์ดํฐ์ ์ EDA ๊ธฐ๋ฒ์ ์ ์ฉํด ํ ๋ฌธ์ฅ๋น 9๊ฐ์ ์ฆ๊ฐ ๋ฌธ์ฅ ์์ฑ
→ EDA ๊ธฐ๋ฒ์ ํตํด ์์ฑ๋ pro-con ๋ฐ์ดํฐ์ ์ด ์ ๋ฐ์ ์ผ๋ก ์๋ณธ ๋ฐ์ดํฐ์ ์ ๋ถํฌ๋ฅผ ๋ฐ๋ผ๊ฐ
4. Ablation Study: EDA Decomposed
โช๏ธ ๊ฐ ๊ธฐ๋ฒ์ด ์ฑ๋ฅ์ ์ฃผ๋ ์ํฅ์ ํ์ ํ๊ธฐ ์ํ Ablation study ์ํ
โช๏ธ ๋์์ด/์ ์์ด ๊ต์ฒด(SR) ๊ธฐ๋ฒ์ ๋ค๋ฅธ ์ธ ๊ฐ์ง ๊ธฐ๋ฒ๋ณด๋ค ๋ง์ด ์ฌ์ฉ๋์ด ์๊ธฐ ๋๋ฌธ์ EDA์ ์ฑ๋ฅ ํฅ์์ ๋๋ถ๋ถ SR์์ ์จ๋ค๊ณ ์๊ฐํ ์ ์์ผ๋ฏ๋ก ๊ฐ ๊ธฐ๋ฒ๋ณ๋ก ๋๋์ด ์คํ
โช๏ธ ํ๋์ ๊ธฐ๋ฒ์ ๋ํด '๋ฌธ์ฅ ๋ด ๋ณ๊ฒฝ๋๋ ๋จ์ด์ ๋น์จ'๋ง ๋ค์ํ๊ฒ ๋ฐ๊พธ๋ฉด์ ๊ฒฐ๊ณผ ํ์ธ
โช๏ธ ์์ ๊ทธ๋ํ๋ฅผ ํตํด 4๊ฐ์ง EDA ๊ธฐ๋ฒ์ด ๋ชจ๋ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ์ ํ์ธ ๊ฐ๋ฅ
5. How much augmentation?
โช๏ธ ๊ธฐ์กด ๋ฌธ์ฅ ํ๋ ๋น ์์ฑ๋ ์ฆ๊ฐ ๋ฌธ์ฅ ์ $n_aug$๊ฐ ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ผ์น๋์ง ํ์ธํ๊ณ ์ ํจ
โช๏ธ ์ ์ ๋ฐ์ดํฐ์ : ์ฆ๊ฐ ๋ฌธ์ฅ์ด ๋ง์์๋ก ๋ ํฐ ์ฑ๋ฅ ํฅ์
โช๏ธ ๋ง์ ๋ฐ์ดํฐ์ : 4๊ฐ ์ด์์ ์ฆ๊ฐ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒ์ ๋์์ด ๋์ง ์์
5 Comparison with Related Work
์๋ต
'Artificial Intelligence > Paper' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Improving Language Understanding by Generative Pre-Training (0) | 2023.01.15 |
---|---|
RoBERTa: A Robustly Optimized BERT Pretraining Approach (0) | 2023.01.05 |
BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding (0) | 2022.09.21 |
Sequence to Sequence Learning with Neural Networks (0) | 2022.03.21 |
Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks (0) | 2022.03.03 |