์ํธ๋กํผ ๊ฐ๋ ์ ๋๋ฌด๋๋ ๋ณต์ก๋ํดํด ~
๐ฌ ์ต๋ํ ๋งค๋๋ฝ๊ฒ ํด์ํ๊ณ ์ ๋ ธ๋ ฅํ์ง๋ง ์ด์ํ ๋ฌธ์ฅ์ด ์์ ์ ์์ต๋๋ค. ํผ๋๋ฐฑ์ ์ธ์ ๋ ํ์์ ๋๋ค ๐
์๋ณธ ๊ธ ์ฃผ์ : https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-explained-b09cdae917a
Cross-Entropy(log-loss๋ผ๊ณ ํ๊ธฐ๋ ํจ)๋ ๋ถ๋ฅ ๋ฌธ์ ์์ ๊ฐ์ฅ ๋ง์ด ์ฐ์ด๋ loss function ์ค ํ๋์ด๋ค. ํ์ง๋ง ๋ฐฉ๋ํ ์๋ฃ์ ํ๋ ์์ํฌ๊ฐ ์กด์ฌํ๊ณ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค์์ ์ฌ๋๋ค์ ์ํธ๋กํผ์ ํต์ฌ ๊ฐ๋ ์ ์์ง ๋ชปํ ์ํ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ฒ ๋๋ค. ์ด ๊ธ์์๋, Entropy ์ด๋ฉด์ ์๋ ๊ทผ๋ณธ์ ์ธ ์ง๊ด์ Cross-Entropy, KL-Divergence์ ๊ด๋ จ์ง์ด ๋ณผ ๊ฒ์ด๋ค.
Entropy๋?
Entropy๊ฐ ๋ญ ๋ํ๋ด๋์ง ์๊ธฐ ์ํด ๋ช ๊ฐ์ง ์ ๋ณด์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์ดํด๋ณด์. ๋์งํธ ์๋์์ ๋ฉ์ธ์ง๋ ๋นํธ(0๊ณผ 1)๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ๋ฉ์ธ์ง๋ก ์ํตํ ๋, ์ฐ๋ฆฌ๋ ์์ ์์๊ฒ ๊ฐ๋ฅํ ํ ๋ง์ ์ ์ฉํ ์ ๋ณด๋ฅผ ๋ณด๋ด๊ณ ์ถ์ด ํ๋ค.
Claude Shannon์ ๋ ผ๋ฌธ "The Mathematical Theory of Communication(1948)"์์ ๊ทธ๋ 1๋นํธ์ ์ ๋ณด๋ฅผ ์ ์กํ๋ ๊ฒ์ ์์ ์์ ๋ถํ์ค์ฑ์ ๋ ๋ฐฐ ์ค์ฌ์ค๋ค๊ณ ์๊ธฐํ๊ณ ์๋ค.
๋ฌด์จ ๋ง์ธ์ง ๋ณด๋๋ก ํ์. ์๋ฅผ ๋ค์ด ๋ ์จ๊ฐ ๋งค์ผ 50(๋ง์ ๋ ):50(๋น ์ค๋ ๋ )์ผ๋ก ๋๋คํ ๊ณณ์ด ์๋ค๊ณ ๊ฐ์ ํ๋ค.
๋ง์ฝ ๊ธฐ์ ๊ด์ธก์๊ฐ ๋ด์ผ ๋น๊ฐ ์ฌ ๊ฒ์ด๋ผ๋ ์ ๋ณด๋ฅผ ๋งํด์ค๋ค๋ฉด ๋น์ ์ ์ ๋ณด ๋ถํ์ค์ฑ์ 2๋ฐฐ ์ค์ด๋ ๋ค. ์ฒ์์๋ ๋ ๊ฐ์ง๊ฐ ๊ฐ์ ํ๋ฅ ์ ๊ฐ์ง๊ณ ์์์ง๋ง ๊ธฐ์ ๊ด์ธก์๋ก๋ถํฐ ์ ๋ฐ์ดํธ ๋ ๋ด์ฉ์ ๋ฐ๊ฒ ๋๋ฉด ํ ๊ฐ์ง ๊ฐ๋ฅ์ฑ๋ง ๊ฐ๊ฒ ๋๋ค. ๊ธฐ์ ๊ด์ธก์๋ ์ฐ๋ฆฌ์๊ฒ ์ ์ฉํ ์ ๋ณด๋ฅผ ๋ณด๋ด์๊ณ , ๊ทธ๋ค์ด ์ด ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ ์ํธํํ๋๋์ ๊ด๊ณ์์ด ์ด ์ ๋ณด๋ ์ฌ์ค์ด๋ค.
์ ์ก๋ ๋ฉ์ธ์ง๊ฐ 'Rainy'๊ณ ๊ฐ ๋ฌธ์๊ฐ 1๋ฐ์ดํธ์ฉ์ ๊ฐ์ ธ ๋ฉ์ธ์ง์ ์ ์ฒด ํฌ๊ธฐ๋ 40๋นํธ๋ผ๊ณ ํ๋๋ผ๋ ์ ์ฉํ ์ ๋ณด๋ ๋ฑ ํ ๋นํธ๋ง ์ ๋ฌํ๋ค.
→ ๋ ์จ์ ์ํ๊ฐ ๋ ๊ฐ์ง ๋ฐ์ ์๊ธฐ ๋๋ฌธ์ 0 ์๋๋ฉด 1 ํ ๋นํธ๋ก ์ ๋ณด ์ ๋ฌ์ด ๊ฐ๋ฅํ๋ค๋ ์๋ฏธ
์ด๋ฒ์๋ ๋ ์จ๊ฐ 8๊ฐ์ ์ํ๋ฅผ ๊ฐ์ง๋ฉฐ ๊ฐ ๋ ์จ์ ํ๋ฅ ์ ๋ชจ๋ ๊ฐ์ ์ํฉ์ ๊ฐ์ ํด๋ณด๊ธฐ๋ก ํ๋ค.
์ด์ ๊ธฐ์ ๊ด์ธก์๊ฐ ๋ค์๋ ์ ๋ ์จ๋ฅผ ์๋ ค์ค๋ค๋ฉด ๋น์ ์ ์ ๋ณด ๋ถํ์ค์ฑ์ 8๋ฐฐ ์ค์ด๋ค๊ฒ ๋๋ค. ๊ฐ ์ฌ๊ฑด๋ค์ด ๋ฐ์ํ ํ๋ฅ ์ด $\frac{1}{8}$์ด๊ธฐ ๋๋ฌธ์ reduction factor๋ 8์ด๋ค.
Reduction factor์ ๋ก๊ทธ๋ฅผ ์ทจํ๋ฉด ํ์ํ ๋นํธ ์๋ฅผ ์ ์ ์๋ค.
ํ์ง๋ง ์ฌ๊ฑด ๋ฐ์ ํ๋ฅ ์ด ๊ฐ์ง ์๋ค๋ฉด ์ด๋จ๊น?
๋ง์ ํ๋ฅ ์ด 75%, ๋น๊ฐ ์ฌ ํ๋ฅ ์ด 25%๋ผ๋ฉด ๋น์ ์ ์ ๋ณด ๋ถํ์ค์ฑ์ 4๋ฐฐ(2๋นํธ์ ์ ๋ณด) ์ค์ด๋ ๋ค. ๋ถํ์ค์ฑ ๊ฐ์๋ ์ฌ๊ฑด ๋ฐ์ ํ๋ฅ ์ ์ญ์์ ํด๋นํ๋ค. ์ด ๊ฒฝ์ฐ์์๋ 25%์ ์ญ์๊ฐ 4์ด๋ฏ๋ก $\log_2 4$๋ 2์ด๊ณ ์ ๋ณด ์ ๋ฌ์ ํ์ํ ๋นํธ ์๋ 2๋นํธ๊ฐ ๋๋ค.
๊ธฐ์ ๊ด์ธก์์์ ๋ด์ผ์ ๋ง์ ๊ฒ์ด๋ผ๊ณ ์๊ธฐํ๋ค๋ฉด ์ฐ๋ฆฌ๋ 0.41๋นํธ(=$\log_2 (0.75)$)์ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ป์ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ๊ธฐ์ ๊ด์ธก์์์ ํ๊ท ์ ์ผ๋ก ์ผ๋ง์ ์ ๋ณด๋ฅผ ์ป์ ์ ์์๊น?
๋ด์ผ ๋ง์ ํ๋ฅ (75%)์ 0.41๋นํธ์ ์ ๋ณด๋ฅผ ์ฃผ๊ณ ํ๋ฆด ํ๋ฅ (25%)๋ 2๋นํธ์ ์ ๋ณด๋ฅผ ์ค๋ค. ์ด ๋ด์ฉ์ ์ด์ฉํ์ฌ ๊ณ์ฐํ๋ฉด
$$75%*0.41+25%*2=0.81$$
์ฐ๋ฆฌ๋ ๊ธฐ์๊ด์ธก์๋ก๋ถํฐ ๋งค์ผ๋ง๋ค 0.81๋นํธ์ ์ ๋ณด๋ฅผ ํ๊ท ์ ์ผ๋ก ์ป๋๋ค. ๋ฐฉ๊ธ ๊ณ์ฐํ ๊ฒ์ Entropy๋ผ๊ณ ํ๋ค. ์ด๊ฒ์ ์ฌ๊ฑด๋ค์ ๋ถํ์ค์ฑ์ ๋ํ๋ด๋ ์์ฃผ ์ข์ ์ฒ๋์ด๋ค.
๋ง์ฝ ์ฐ๋ฆฌ๊ฐ ๋งค์ผ ๋ง๊ธฐ๋ง ํ ์ฌ๋ง ํ๊ฐ์ด๋ฐ ์ฐ๋ค๋ฉด ๊ธฐ์ ๊ด์ธก์๋ก๋ถํฐ ๋ง์ ์ ๋ณด๋ฅผ ์ป์ง ๋ชปํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ํธ๋กํผ๋ 0์ ๊ฐ๊น์ธ ๊ฒ์ด๋ค. ๋ฐ๋ฉด์ ๋ ์จ ๋ณํ๊ฐ ํฌ๋ฉด ์ํธ๋กํผ๋ ํจ์ฌ ๋ ์ปค์ง ๊ฒ์ด๋ค.
Cross-Entropy
์ด์ Cross-Entropy์ ๋ํด ์์๋ณด์. ์ด๊ฒ์ ๋จ์ง ๋ฉ์์ง์ ํ๊ท ๊ธธ์ด์ ํด๋นํ๋ค. ๋ชจ๋ ๋์ผํ ํ๋ฅ ์ ๊ฐ์ง 8๊ฐ์ง ๊ธฐ์ ์กฐ๊ฑด ์์๋ฅผ ๊ณ ๋ คํ ๋, 3๋นํธ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ๊ฐ ์ธ์ฝ๋ฉํ ์ ์๋ค.
๊ทธ๋ผ ์ด ๊ฒฝ์ฐ ํ๊ท ๋ฉ์์ง ๊ธธ์ด๋ 3์ด๊ณ ์ด๊ฒ์ด Cross-Entropy๋ค.
ํ์ง๋ง ๋ง์ฝ ๋น์ ์ด ๋ ์จ์ ํ๋ฅ ๋ถํฌ๊ฐ ๋ค์๊ณผ ๊ฐ์ ๋ง์ ์ง์ญ์ ์ฐ๋ค๊ณ ๊ฐ์ ํด๋ณด์.
๋งค์ผ ๋ ์จ๊ฐ ๋ง์ ํ๋ฅ ์ 35%, ์ฒ๋ฅ๋ฒ๊ฐ๊ฐ ์น ํ๋ฅ ์ ๋จ 1%๋ค. ์ด ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐํ๋ฉด Entropy=2.23๋นํธ๋ฅผ ์ป์ ์ ์๋ค.
์ฆ ํ๊ท ์ ์ผ๋ก ๊ธฐ์ ๊ด์ธก์๋ 3๋นํธ์ ์ ๋ณด๋ฅผ ์ ์กํ์ง๋ง ์์ ์๋ 2.23๋นํธ๋ง์ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ป๊ฒ ๋๋ค. (0.77๋นํธ ์์ค)
์ด์ ๋ค์์ฒ๋ผ ์ฝ๋๋ฅผ ๋ฐ๊ฟ๋ณด์.
์ด์ ๋ง์ ๋ ์ 2๋นํธ, ์ฝ๊ฐ ํ๋ฆฌ๊ฑฐ๋ ๋จน๊ตฌ๋ฆ์ด ๋ง์ด ๋ ๋ ์ 3๋นํธ, ๋น๊ฐ ์ค๋ ๋ ์ 4๋นํธ, ๋ง์ ๋น์ ์ฒ๋ฅ๋ฒ๊ฐ๊ฐ ์น๋ ๋ ์ 5๋นํธ๋ฅผ ์ธ ๊ฒ์ด๋ค. ๋ ์จ๋ ๋ช ํํ๊ฒ ํํ๋๋ฉฐ ์ฌ๋ฌ ๋ฉ์์ง๋ฅผ ์ด์ด ์ฌ์ฉํ๋ฉด ๋นํธ ์ํ์ค๋ ๋จ ํ ๊ฐ์ง๋ก ํด์๋๋ค. ์๋ฅผ ๋ค์ด 01100์ ๋ถ๋ถ์ ์ผ๋ก ๋ง์ ํ ๊ฐ๋ฒผ์ด ๋น๊ฐ ์จ๋ค๋ ์๋ฏธ์ด๋ค. ๊ธฐ์ ๊ด์ธก์๊ฐ ๋งค์ผ ๋ณด๋ด๋ ํ๊ท ๋นํธ๋ฅผ ๊ณ์ฐํ๋ฉด 2.42๋นํธ๋ฅผ ์ป์ ์ ์๋ค.
์ด๊ฒ์ ์ธ ๋นํธ๋ฅผ ์ฌ์ฉํ ๋๋ณด๋ค ๋์ ์๋กญ๊ณ ๊ฐ์ ๋ Cross-entropy์ด๋ค. ์ด์ ๋ฐ๋๋ก ๋๋ถ๋ถ ๋น๊ฐ ์ค๋ ๋ค๋ฅธ ์ง์ญ์์ ๋์ผํ ์ฝ๋๋ฅผ ์ฌ์ฉํ๋ค๊ณ ๊ฐ์ ํ์.
์ด ์ํฉ์์ Cross-entropy๋ฅผ ๊ณ์ฐํ๋ฉด ์ํธ๋กํผ์ ๋ ๋ฐฐ ๊ฐ๋์ธ 4.58๋นํธ๋ฅผ ์ป๋๋ค. ํ๊ท ์ ์ผ๋ก ๊ด์ธก์๋ 4.58๋นํธ๋ฅผ ๋ณด๋ด์ง๋ง ์์ ์์๊ฒ๋ 2.23๋นํธ๋ง์ด ์ ์ฉํ ์ ๋ณด์ด๋ค. ๊ด์ธก์๋ ํ์ํ ๋ฉ์์ง๋ณด๋ค ๋ ๋ฐฐ๋ ๋ง์ ์ ๋ณด๋ฅผ ๋ณด๋ด๊ณ ์๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ์ฝ๋๊ฐ ๋ ์จ ๋ถํฌ์ ๋ํ ์๋ฌต์ ์ธ ๊ฐ์ ์ ํ๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฅผ ๋ค๋ฉด, ์ฐ๋ฆฌ๊ฐ ๋ง์ ๋ ์จ์ 2๋นํธ๋ฅผ ์ฌ์ฉํ ๋, negative binary log(0.25)=2์ด๊ธฐ ๋๋ฌธ์ ์ฐ๋ฆฌ๋ ๋ง์ ํ๋ฅ ์ด 25%๋ผ๊ณ ๊ฐ์ ํ๊ฒ ๋๋ค.
๊ฐ์ ๋ฐฉ์์ผ๋ก, ๋ชจ๋ ๋ ์จ ์ํฉ์ ๋ํด ๊ณ์ฐํด๋ณด์.
๋ถ๋ชจ์ ์๋ 2์ ๊ฑฐ๋ญ์ ๊ณฑ์ ๋ฉ์์ง ์ ์ก์ ์ฌ์ฉ๋๋ ๋นํธ ์๋ค. ์์ธก ๋ถํฌ q์ ์ค์ ๋ถํฌ p๊ฐ ๋ค๋ฅด๋ค๋ ๊ฒ์ ๋งค์ฐ ๋ช ๋ฐฑํ๋ค.
์ด์ ์ฐ๋ฆฌ๋ Cross-entropy๋ฅผ ์ค์ ํ๋ฅ ๋ถํฌ p์ ์์ธก ํ๋ฅ ๋ถํฌ q์ ํจ์๋ก ๋ํ๋ผ ์ ์๋ค.
์์ธก ํ๋ฅ ์ ๋ก๊ทธ๊ฐ์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋นผ๋ฉด entropy ์๊ณผ ๋น์ทํด๋ณด์ธ๋ค. ์์ธก์ด ์๋ฒฝํ๋ค๋ฉด, ์ฆ ์์ธก ๋ถํฌ์ ์ค์ ๋ถํฌ๊ฐ ๋์ผํ๋ค๋ฉด cross-entropy๋ entropy์ ๊ฐ๋ค. ๊ทธ๋ฌ๋ ๋ถํฌ๊ฐ ๋ค๋ฅด๋ฉด cross-entropy๊ฐ ์ํธ๋กํผ๋ณด๋ค ๋นํธ ์๋งํผ ์ปค์ง๋ค. Cross-entropy๊ฐ entropy๋ฅผ ์ด๊ณผํ๋ ์์ ์๋ ์ํธ๋กํผ๋ ๋ ์ผ๋ฐ์ ์ผ๋ก๋ ์ฟจ๋ฐฑ-๋ผ์ด๋ธ๋ฌ ๋ฐ์ฐ(KL-Divergence)์ด๋ผ๊ณ ํ๋ค.
์ถ๊ฐ ์๋ฃ
'Archive' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ฒ์ญ] Micro, Macro & Weighted Averages of F1 Score, Clearly Explained (1) | 2022.12.20 |
---|---|
[๋ฒ์ญ] Foundations of NLP Explained Visually: Beam Search, How It Works (0) | 2022.08.01 |
[๋ฒ์ญ] Word2Vec Research Paper Explained (0) | 2022.07.04 |
[๋ฒ์ญ] Introduction to Stemming and Lemmatization (0) | 2022.04.01 |
[๋ฒ์ญ] Attention: Sequence 2 Sequence model with Attention Mechanism (0) | 2022.03.16 |