Transformer๋ฅผ ์ ๋๋ก ์ดํดํ๊ธฐ ์ํด ๋ด์ผ ํ ๋ ผ๋ฌธ๊ณผ ๊ฐ๋ ๋ค์ด ๊ต์ฅํ ๋ง๋ค. ์ฐจ๊ทผ์ฐจ๊ทผ ๋ณด๊ณ Transformer๋ ๋ค์ ๋ณผ ๊ณํ์ด๋ค.
๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ !
์๋ฌธ : https://arxiv.org/pdf/1409.3215.pdf
Abstract
- DNN์ speech recognition๊ณผ ๊ฐ์ ์ด๋ ค์ด ํ์ต ํ์คํฌ์์ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ ๋ชจ๋ธ์ด์ง๋ง ๊ณ ์ ์ฐจ์์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ ์ถ๋ ฅ ๊ธธ์ด๊ฐ ๋ค๋ฅธ ์ํ์ค(๋ฌธ์ฅ)๋ฅผ ๋ค๋ฃจ๋ ๋ฌธ์ ์๋ ์ ํฉํ์ง ์์๋ค.
- ์ด ๋ ผ๋ฌธ์์๋ ๋ค์ธต LSTM์ ์ธ์ฝ๋-๋์ฝ๋๋ก ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์ํ์ค ์๋ฏธ์ ๋์ํ๋ ๊ฐ๋ณ ๊ธธ์ด ์ํ์ค๋ฅผ ์ถ๋ ฅํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
- ์ ๋ ฅ ์ํ์ค ๋จ์ด ์์๋ฅผ ๋ฐ๋๋ก ํ ๊ฒฝ์ฐ(์ฌ๋ํด/๋๋ฅผ/๋๋ ์ด๋ฐ ์) LSTM ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
Introduction
- ํ๋์ LSTM์ผ๋ก ์ ๋ ฅ ์ํ์ค๋ฅผ ํ ๋ฒ์ ํ๋์ฉ ์ฝ์ ํ์ context vector(๊ณ ์ ์ฐจ์ ๋ฒกํฐ)๋ฅผ ์ป๊ณ ๋ ๋ค๋ฅธ LSTM(๋์ฝ๋)์ ์ด์ฉํด ์ถ๋ ฅ ์ํ์ค ์ถ์ถ
- ๋ ๋ฒ์งธ LSTM์ ์ ๋ ฅ ์ํ์ค์ ๋ฐ๋ผ ์กฐ์ ๋๋ ๊ฒ์ด์ง๋ง ๊ธฐ๋ณธ์ ์ผ๋ก๋ recurrent neural network language model์ด๋ค.
cf. EOS(End Of Sentence/Sequence)
๋ฌธ์ฅ์ ๋์ ์๋ฆฌ๊ธฐ ์ํด ์ฌ์ฉํ๋ ํน์ํ ํ ํฐ์ผ๋ก ๋ชจ๋ธ์ <EOS> ํ ํฐ์ ๋ฐ์ผ๋ฉด ์์ธก ์์ฑ์ ๋ฉ์ถ๋ค.
The model
1) RNN & LSTM
- ์ํ์ ๊ฒฝ๋ง(RNN)์ ์ํ์ค์ ๋ํ feedforward ์ ๊ฒฝ๋ง์ ์ผ๋ฐํํ ๊ฒ์ด๋ค. ์ ๋ ฅ ์ํ์ค ($x_{1}$, ..., $x_{T}$)๊ฐ ์ฃผ์ด์ง๋ฉด RNN์ ์๋ ์์ ๋ฐ๋ณตํ๋ฉฐ ์ถ๋ ฅ ์ํ์ค ($y_{1}$, ..., $y_{T}$)๋ฅผ ๊ณ์ฐํ๋ค.
$$h_{t} = sigm(W^{hx}x_{t}+W^{hh}h_{t-1})$$
$$y_{t} = W^{yh}h_{t}$$
- ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ๊ฐ๋จํ ์ํ์ค ํ์ต ๋ฐฉ๋ฒ์ ํ๋์ RNN์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์ํ์ค๋ฅผ ๊ณ ์ ํฌ๊ธฐ ๋ฒกํฐ์ ๋งคํํ ๋ค์ ๋ค๋ฅธ RNN์ผ๋ก ํ๊ฒ ์ํ์ค์ ๋งคํํ๋ ๊ฒ์ด๋ค.
- RNN์ ํ์ต์ํฌ ๋ long term dependencies ๋ฌธ์ ๋ก ์ธํด ์ด๋ ค์ด ์ ์ด ์์๊ธฐ ๋๋ฌธ์ ์ฅ๊ธฐ ์์กด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ LSTM์ ์ฑ๊ณต์ ์ด์๋ค.
- LSTM์ ๋ชฉํ๋ ์ ๋ ฅ ์ํ์ค ($x_{1}$, ..., $x_{T}$)์ ์ ๋ ฅ ์ํ์ค์ ๋์ํ๋ ์ถ๋ ฅ ์ํ์ค ($y_{1}$, ..., $y_{T'}$)์ ์กฐ๊ฑด๋ถ ํ๋ฅ p($y_{1}$, ..., $y_{T'}$|$x_{1}$, ..., $x_{T}$)๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค. (T'≠T)
- LSTM์ ๋ง์ง๋ง hidden state์ ์ํด ์ฃผ์ด์ง ์ ๋ ฅ ์ํ์ค ($x_{1}$, ..., $x_{T}$)์ ๊ณ ์ ์ฐจ์ ํํ์ธ $v$๋ฅผ ์ป์ ํ ์ด๊ธฐ hidden state๊ฐ $v$์ธ LSTM-LM ๊ณต์์ ๊ณ์ฐํด ($y_{1}$, ..., $y_{T'}$)์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ตฌํ๋ค.
2) ์ค์ ๊ตฌํํ ๋ชจ๋ธ
→ ์์์ ์ค๋ช ํ ๋ฐฉ์๊ณผ ์ธ ๊ฐ์ง ์ฐจ์ด๊ฐ ์์
โ ์ธ์ฝ๋ ์ชฝ LSTM๊ณผ ๋์ฝ๋ ์ชฝ LSTM๊ฐ ์๋ก ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ค.
โก ์์ LSTM๋ณด๋ค ๊น์ LSTM์ ์ฑ๋ฅ์ด ๋ ์ข๊ธฐ ๋๋ฌธ์ 4๊ฐ์ ๋ ์ด์ด๋ฅผ ๊ฐ์ง LSTM์ ์ฌ์ฉํ๋ค.
โข ์ ๋ ฅ ๋ฌธ์ฅ์ ์์๋ฅผ ๋ค์ง์๋ค.
Experiments
1. Dataset details : ์๋ต
2. Decoding and Rescoring
- ์คํ์ ํต์ฌ์ ๋ง์ ๋ฌธ์ฅ ์์ ๋ํด ๊น์ LSTM์ ํ์ต์ํค๋ ๊ฒ์ด๋ค.
- ์์ค ๋ฌธ์ฅ $S$๊ฐ ์ฃผ์ด์ก์ ๋, $S$์ ๋์ํ๋ ์ ํํ ๋ฒ์ญ ๊ฒฐ๊ณผ์ธ $T$์ ๋ํ log probability๊ฐ ์ปค์ง๋ ์ชฝ์ผ๋ก ํ์ต ์งํ
- ํ์ต์ด ๋๋๋ฉด beam search ๋์ฝ๋๋ฅผ ์ฌ์ฉํด ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ์ด ๋์ ๋ฒ์ญ ๊ฒฐ๊ณผ๋ฅผ ์ฐพ๋๋ค.
3. Reversing the Source Sentences
- LSTM์ ์ฅ๊ธฐ ์์กด์ฑ ๋ฌธ์ ํด๊ฒฐ์ ์ ํฉํ์ง๋ง ๋ ผ๋ฌธ ์ ์๋ค์ ์์ค ๋ฌธ์ฅ์ ์์๋ฅผ ๋ฐ๊พธ๋ฉด ํ์ต์ด ๋ ์๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
์คํ ์ค์ ๊ฐ๊ณผ ๊ฒฐ๊ณผ ๋ถ์์ ๋ํ ํํธ๋ ์๋ต ๐
'Artificial Intelligence > Paper' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks (0) | 2022.11.07 |
---|---|
BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding (0) | 2022.09.21 |
Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks (0) | 2022.03.03 |
Attention Is All You Need (0) | 2022.02.23 |
Adversarial Examples in the Physical World (0) | 2022.01.27 |