Archive

[๋ฒˆ์—ญ] Entropy, Cross-Entropy, KL-Divergence

geum 2022. 3. 31. 13:46

์—”ํŠธ๋กœํ”ผ ๊ฐœ๋…์€ ๋„ˆ๋ฌด๋‚˜๋„ ๋ณต์žก๋‚œํ•ดํ•ด ~

 

๐Ÿ’ฌ ์ตœ๋Œ€ํ•œ ๋งค๋„๋Ÿฝ๊ฒŒ ํ•ด์„ํ•˜๊ณ ์ž ๋…ธ๋ ฅํ–ˆ์ง€๋งŒ ์–ด์ƒ‰ํ•œ ๋ฌธ์žฅ์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ”ผ๋“œ๋ฐฑ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค ๐Ÿ™‚


์›๋ณธ ๊ธ€ ์ฃผ์†Œ : https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-explained-b09cdae917a

 

Entropy, Cross-Entropy, and KL-Divergence Explained!

Let us try to understand the most widely used loss functionโ€Š—โ€ŠCross-Entropy.

towardsdatascience.com

 

 

Cross-Entropy(log-loss๋ผ๊ณ  ํ•˜๊ธฐ๋„ ํ•จ)๋Š” ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ์“ฐ์ด๋Š” loss function ์ค‘ ํ•˜๋‚˜์ด๋‹ค. ํ•˜์ง€๋งŒ ๋ฐฉ๋Œ€ํ•œ ์ž๋ฃŒ์™€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์กด์žฌํ•˜๊ณ  ์‰ฝ๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋Œ€๋‹ค์ˆ˜์˜ ์‚ฌ๋žŒ๋“ค์€ ์—”ํŠธ๋กœํ”ผ์˜ ํ•ต์‹ฌ ๊ฐœ๋…์„ ์•Œ์ง€ ๋ชปํ•œ ์ƒํƒœ๋กœ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ฒŒ ๋œ๋‹ค. ์ด ๊ธ€์—์„œ๋Š”, Entropy ์ด๋ฉด์— ์žˆ๋Š” ๊ทผ๋ณธ์ ์ธ ์ง๊ด€์„ Cross-Entropy, KL-Divergence์™€ ๊ด€๋ จ์ง€์–ด ๋ณผ ๊ฒƒ์ด๋‹ค.

 

Entropy๋ž€?

 

Entropy๊ฐ€ ๋ญ˜ ๋‚˜ํƒ€๋‚ด๋Š”์ง€ ์•Œ๊ธฐ ์œ„ํ•ด ๋ช‡ ๊ฐ€์ง€ ์ •๋ณด์ด๋ก ์˜ ๊ธฐ์ดˆ๋ฅผ ์‚ดํŽด๋ณด์ž. ๋””์ง€ํ„ธ ์‹œ๋Œ€์—์„œ ๋ฉ”์„ธ์ง€๋Š” ๋น„ํŠธ(0๊ณผ 1)๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ๋‹ค. ๋ฉ”์„ธ์ง€๋กœ ์†Œํ†ตํ•  ๋•Œ, ์šฐ๋ฆฌ๋Š” ์ˆ˜์‹ ์ž์—๊ฒŒ ๊ฐ€๋Šฅํ•œ ํ•œ ๋งŽ์€ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ๋ณด๋‚ด๊ณ  ์‹ถ์–ด ํ•œ๋‹ค.

 

Claude Shannon์˜ ๋…ผ๋ฌธ "The Mathematical Theory of Communication(1948)"์—์„œ ๊ทธ๋Š” 1๋น„ํŠธ์˜ ์ •๋ณด๋ฅผ ์ „์†กํ•˜๋Š” ๊ฒƒ์€ ์ˆ˜์‹ ์ž์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ๋‘ ๋ฐฐ ์ค„์—ฌ์ค€๋‹ค๊ณ  ์–˜๊ธฐํ•˜๊ณ  ์žˆ๋‹ค.

 

๋ฌด์Šจ ๋ง์ธ์ง€ ๋ณด๋„๋ก ํ•˜์ž. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‚ ์”จ๊ฐ€ ๋งค์ผ 50(๋ง‘์€ ๋‚ ):50(๋น„ ์˜ค๋Š” ๋‚ )์œผ๋กœ ๋žœ๋คํ•œ ๊ณณ์ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

 

์ถœ์ฒ˜ : https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-explained-b09cdae917a

 

๋งŒ์•ฝ ๊ธฐ์ƒ ๊ด€์ธก์†Œ๊ฐ€ ๋‚ด์ผ ๋น„๊ฐ€ ์˜ฌ ๊ฒƒ์ด๋ผ๋Š” ์ •๋ณด๋ฅผ ๋งํ•ด์ค€๋‹ค๋ฉด ๋‹น์‹ ์˜ ์ •๋ณด ๋ถˆํ™•์‹ค์„ฑ์€ 2๋ฐฐ ์ค„์–ด๋“ ๋‹ค. ์ฒ˜์Œ์—๋Š” ๋‘ ๊ฐ€์ง€๊ฐ€ ๊ฐ™์€ ํ™•๋ฅ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์ง€๋งŒ ๊ธฐ์ƒ ๊ด€์ธก์†Œ๋กœ๋ถ€ํ„ฐ ์—…๋ฐ์ดํŠธ ๋œ ๋‚ด์šฉ์„ ๋ฐ›๊ฒŒ ๋˜๋ฉด ํ•œ ๊ฐ€์ง€ ๊ฐ€๋Šฅ์„ฑ๋งŒ ๊ฐ–๊ฒŒ ๋œ๋‹ค. ๊ธฐ์ƒ ๊ด€์ธก์†Œ๋Š” ์šฐ๋ฆฌ์—๊ฒŒ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ๋ณด๋‚ด์™”๊ณ , ๊ทธ๋“ค์ด ์ด ์ •๋ณด๋ฅผ ์–ด๋–ป๊ฒŒ ์•”ํ˜ธํ™”ํ–ˆ๋Š๋ƒ์— ๊ด€๊ณ„์—†์ด ์ด ์ •๋ณด๋Š” ์‚ฌ์‹ค์ด๋‹ค.

 

์ „์†ก๋œ ๋ฉ”์„ธ์ง€๊ฐ€ 'Rainy'๊ณ  ๊ฐ ๋ฌธ์ž๊ฐ€ 1๋ฐ”์ดํŠธ์”ฉ์„ ๊ฐ€์ ธ ๋ฉ”์„ธ์ง€์˜ ์ „์ฒด ํฌ๊ธฐ๋Š” 40๋น„ํŠธ๋ผ๊ณ  ํ•˜๋”๋ผ๋„ ์œ ์šฉํ•œ ์ •๋ณด๋Š” ๋”ฑ ํ•œ ๋น„ํŠธ๋งŒ ์ „๋‹ฌํ–ˆ๋‹ค.

→ ๋‚ ์”จ์˜ ์ƒํƒœ๊ฐ€ ๋‘ ๊ฐ€์ง€ ๋ฐ–์— ์—†๊ธฐ ๋•Œ๋ฌธ์— 0 ์•„๋‹ˆ๋ฉด 1 ํ•œ ๋น„ํŠธ๋กœ ์ •๋ณด ์ „๋‹ฌ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์˜๋ฏธ

 

 

์ด๋ฒˆ์—๋Š” ๋‚ ์”จ๊ฐ€ 8๊ฐœ์˜ ์ƒํƒœ๋ฅผ ๊ฐ€์ง€๋ฉฐ ๊ฐ ๋‚ ์”จ์˜ ํ™•๋ฅ ์€ ๋ชจ๋‘ ๊ฐ™์€ ์ƒํ™ฉ์„ ๊ฐ€์ •ํ•ด๋ณด๊ธฐ๋กœ ํ•œ๋‹ค.

 

์ถœ์ฒ˜ : https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-explained-b09cdae917a

 

์ด์ œ ๊ธฐ์ƒ ๊ด€์ธก์†Œ๊ฐ€ ๋‹ค์Œ๋‚ ์˜ ๋‚ ์”จ๋ฅผ ์•Œ๋ ค์ค€๋‹ค๋ฉด ๋‹น์‹ ์˜ ์ •๋ณด ๋ถˆํ™•์‹ค์„ฑ์€ 8๋ฐฐ ์ค„์–ด๋“ค๊ฒŒ ๋œ๋‹ค. ๊ฐ ์‚ฌ๊ฑด๋“ค์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด $\frac{1}{8}$์ด๊ธฐ ๋•Œ๋ฌธ์— reduction factor๋Š” 8์ด๋‹ค.

 

 

Reduction factor์— ๋กœ๊ทธ๋ฅผ ์ทจํ•˜๋ฉด ํ•„์š”ํ•œ ๋น„ํŠธ ์ˆ˜๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

 

ํ•˜์ง€๋งŒ ์‚ฌ๊ฑด ๋ฐœ์ƒ ํ™•๋ฅ ์ด ๊ฐ™์ง€ ์•Š๋‹ค๋ฉด ์–ด๋–จ๊นŒ?

 

๋ง‘์„ ํ™•๋ฅ ์ด 75%, ๋น„๊ฐ€ ์˜ฌ ํ™•๋ฅ ์ด 25%๋ผ๋ฉด ๋‹น์‹ ์˜ ์ •๋ณด ๋ถˆํ™•์‹ค์„ฑ์€ 4๋ฐฐ(2๋น„ํŠธ์˜ ์ •๋ณด) ์ค„์–ด๋“ ๋‹ค. ๋ถˆํ™•์‹ค์„ฑ ๊ฐ์†Œ๋Š” ์‚ฌ๊ฑด ๋ฐœ์ƒ ํ™•๋ฅ ์˜ ์—ญ์ˆ˜์— ํ•ด๋‹นํ•œ๋‹ค. ์ด ๊ฒฝ์šฐ์—์„œ๋Š” 25%์˜ ์—ญ์ˆ˜๊ฐ€ 4์ด๋ฏ€๋กœ $\log_2 4$๋Š” 2์ด๊ณ  ์ •๋ณด ์ „๋‹ฌ์— ํ•„์š”ํ•œ ๋น„ํŠธ ์ˆ˜๋„ 2๋น„ํŠธ๊ฐ€ ๋œ๋‹ค.

 

๊ธฐ์ƒ ๊ด€์ธก์†Œ์—์„œ ๋‚ด์ผ์€ ๋ง‘์„ ๊ฒƒ์ด๋ผ๊ณ  ์–˜๊ธฐํ•œ๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” 0.41๋น„ํŠธ(=$\log_2 (0.75)$)์˜ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ๊ธฐ์ƒ ๊ด€์ธก์†Œ์—์„œ ํ‰๊ท ์ ์œผ๋กœ ์–ผ๋งˆ์˜ ์ •๋ณด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์„๊นŒ?

 

๋‚ด์ผ ๋ง‘์„ ํ™•๋ฅ (75%)์€ 0.41๋น„ํŠธ์˜ ์ •๋ณด๋ฅผ ์ฃผ๊ณ  ํ๋ฆด ํ™•๋ฅ (25%)๋Š” 2๋น„ํŠธ์˜ ์ •๋ณด๋ฅผ ์ค€๋‹ค. ์ด ๋‚ด์šฉ์„ ์ด์šฉํ•˜์—ฌ ๊ณ„์‚ฐํ•˜๋ฉด

$$75%*0.41+25%*2=0.81$$

 

์šฐ๋ฆฌ๋Š” ๊ธฐ์ƒ๊ด€์ธก์†Œ๋กœ๋ถ€ํ„ฐ ๋งค์ผ๋งˆ๋‹ค 0.81๋น„ํŠธ์˜ ์ •๋ณด๋ฅผ ํ‰๊ท ์ ์œผ๋กœ ์–ป๋Š”๋‹ค. ๋ฐฉ๊ธˆ ๊ณ„์‚ฐํ•œ ๊ฒƒ์„ Entropy๋ผ๊ณ  ํ•œ๋‹ค. ์ด๊ฒƒ์€ ์‚ฌ๊ฑด๋“ค์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์•„์ฃผ ์ข‹์€ ์ฒ™๋„์ด๋‹ค.

 

 

๋งŒ์•ฝ ์šฐ๋ฆฌ๊ฐ€ ๋งค์ผ ๋ง‘๊ธฐ๋งŒ ํ•œ ์‚ฌ๋ง‰ ํ•œ๊ฐ€์šด๋ฐ ์‚ฐ๋‹ค๋ฉด ๊ธฐ์ƒ ๊ด€์ธก์†Œ๋กœ๋ถ€ํ„ฐ ๋งŽ์€ ์ •๋ณด๋ฅผ ์–ป์ง€ ๋ชปํ•  ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ์—”ํŠธ๋กœํ”ผ๋Š” 0์— ๊ฐ€๊นŒ์šธ ๊ฒƒ์ด๋‹ค. ๋ฐ˜๋ฉด์— ๋‚ ์”จ ๋ณ€ํ™”๊ฐ€ ํฌ๋ฉด ์—”ํŠธ๋กœํ”ผ๋Š” ํ›จ์”ฌ ๋” ์ปค์งˆ ๊ฒƒ์ด๋‹ค.

 

 

Cross-Entropy

 

์ด์ œ Cross-Entropy์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž. ์ด๊ฒƒ์€ ๋‹จ์ง€ ๋ฉ”์‹œ์ง€์˜ ํ‰๊ท  ๊ธธ์ด์— ํ•ด๋‹นํ•œ๋‹ค. ๋ชจ๋‘ ๋™์ผํ•œ ํ™•๋ฅ ์„ ๊ฐ€์ง„ 8๊ฐ€์ง€ ๊ธฐ์ƒ ์กฐ๊ฑด ์˜ˆ์‹œ๋ฅผ ๊ณ ๋ คํ•  ๋•Œ, 3๋น„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ๊ฐ ์ธ์ฝ”๋”ฉํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๊ทธ๋Ÿผ ์ด ๊ฒฝ์šฐ ํ‰๊ท  ๋ฉ”์‹œ์ง€ ๊ธธ์ด๋Š” 3์ด๊ณ  ์ด๊ฒƒ์ด Cross-Entropy๋‹ค.

 

ํ•˜์ง€๋งŒ ๋งŒ์•ฝ ๋‹น์‹ ์ด ๋‚ ์”จ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ง‘์€ ์ง€์—ญ์— ์‚ฐ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.

 

์ถœ์ฒ˜: https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-explained-b09cdae917a

 

๋งค์ผ ๋‚ ์”จ๊ฐ€ ๋ง‘์„ ํ™•๋ฅ ์€ 35%, ์ฒœ๋‘ฅ๋ฒˆ๊ฐœ๊ฐ€ ์น  ํ™•๋ฅ ์€ ๋‹จ 1%๋‹ค. ์ด ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉด Entropy=2.23๋น„ํŠธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

 

์ฆ‰ ํ‰๊ท ์ ์œผ๋กœ ๊ธฐ์ƒ ๊ด€์ธก์†Œ๋Š” 3๋น„ํŠธ์˜ ์ •๋ณด๋ฅผ ์ „์†กํ•˜์ง€๋งŒ ์ˆ˜์‹ ์ž๋Š” 2.23๋น„ํŠธ๋งŒ์˜ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์–ป๊ฒŒ ๋œ๋‹ค. (0.77๋น„ํŠธ ์†์‹ค)

 

์ด์ œ ๋‹ค์Œ์ฒ˜๋Ÿผ ์ฝ”๋“œ๋ฅผ ๋ฐ”๊ฟ”๋ณด์ž.

 

์ถœ์ฒ˜: https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-explained-b09cdae917a

 

์ด์ œ ๋ง‘์€ ๋‚ ์€ 2๋น„ํŠธ, ์•ฝ๊ฐ„ ํ๋ฆฌ๊ฑฐ๋‚˜ ๋จน๊ตฌ๋ฆ„์ด ๋งŽ์ด ๋‚€ ๋‚ ์€ 3๋น„ํŠธ, ๋น„๊ฐ€ ์˜ค๋Š” ๋‚ ์€ 4๋น„ํŠธ, ๋งŽ์€ ๋น„์™€ ์ฒœ๋‘ฅ๋ฒˆ๊ฐœ๊ฐ€ ์น˜๋Š” ๋‚ ์€ 5๋น„ํŠธ๋ฅผ ์“ธ ๊ฒƒ์ด๋‹ค. ๋‚ ์”จ๋Š” ๋ช…ํ™•ํ•˜๊ฒŒ ํ‘œํ˜„๋˜๋ฉฐ ์—ฌ๋Ÿฌ ๋ฉ”์‹œ์ง€๋ฅผ ์ด์–ด ์‚ฌ์šฉํ•˜๋ฉด ๋น„ํŠธ ์‹œํ€€์Šค๋Š” ๋‹จ ํ•œ ๊ฐ€์ง€๋กœ ํ•ด์„๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 01100์€ ๋ถ€๋ถ„์ ์œผ๋กœ ๋ง‘์€ ํ›„ ๊ฐ€๋ฒผ์šด ๋น„๊ฐ€ ์˜จ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. ๊ธฐ์ƒ ๊ด€์ธก์†Œ๊ฐ€ ๋งค์ผ ๋ณด๋‚ด๋Š” ํ‰๊ท  ๋น„ํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉด 2.42๋น„ํŠธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

 

์ด๊ฒƒ์€ ์„ธ ๋น„ํŠธ๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ๋ณด๋‹ค ๋‚˜์€ ์ƒˆ๋กญ๊ณ  ๊ฐœ์„ ๋œ Cross-entropy์ด๋‹ค. ์ด์ œ ๋ฐ˜๋Œ€๋กœ ๋Œ€๋ถ€๋ถ„ ๋น„๊ฐ€ ์˜ค๋Š” ๋‹ค๋ฅธ ์ง€์—ญ์—์„œ ๋™์ผํ•œ ์ฝ”๋“œ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž.

 

์ด ์ƒํ™ฉ์—์„œ Cross-entropy๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉด ์—”ํŠธ๋กœํ”ผ์˜ ๋‘ ๋ฐฐ ๊ฐ€๋Ÿ‰์ธ 4.58๋น„ํŠธ๋ฅผ ์–ป๋Š”๋‹ค. ํ‰๊ท ์ ์œผ๋กœ ๊ด€์ธก์†Œ๋Š” 4.58๋น„ํŠธ๋ฅผ ๋ณด๋‚ด์ง€๋งŒ ์ˆ˜์‹ ์ž์—๊ฒŒ๋Š” 2.23๋น„ํŠธ๋งŒ์ด ์œ ์šฉํ•œ ์ •๋ณด์ด๋‹ค. ๊ด€์ธก์†Œ๋Š” ํ•„์š”ํ•œ ๋ฉ”์‹œ์ง€๋ณด๋‹ค ๋‘ ๋ฐฐ๋‚˜ ๋งŽ์€ ์ •๋ณด๋ฅผ ๋ณด๋‚ด๊ณ  ์žˆ๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” ์ฝ”๋“œ๊ฐ€ ๋‚ ์”จ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์•”๋ฌต์ ์ธ ๊ฐ€์ •์„ ํ•˜๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด, ์šฐ๋ฆฌ๊ฐ€ ๋ง‘์€ ๋‚ ์”จ์— 2๋น„ํŠธ๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ, negative binary log(0.25)=2์ด๊ธฐ ๋•Œ๋ฌธ์— ์šฐ๋ฆฌ๋Š” ๋ง‘์„ ํ™•๋ฅ ์ด 25%๋ผ๊ณ  ๊ฐ€์ •ํ•˜๊ฒŒ ๋œ๋‹ค.

 

๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ, ๋ชจ๋“  ๋‚ ์”จ ์ƒํ™ฉ์— ๋Œ€ํ•ด ๊ณ„์‚ฐํ•ด๋ณด์ž.

 

์ถœ์ฒ˜: https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-explained-b09cdae917a

 

๋ถ„๋ชจ์— ์žˆ๋Š” 2์˜ ๊ฑฐ๋“ญ์ œ๊ณฑ์€ ๋ฉ”์‹œ์ง€ ์ „์†ก์— ์‚ฌ์šฉ๋˜๋Š” ๋น„ํŠธ ์ˆ˜๋‹ค. ์˜ˆ์ธก ๋ถ„ํฌ q์™€ ์‹ค์ œ ๋ถ„ํฌ p๊ฐ€ ๋‹ค๋ฅด๋‹ค๋Š” ๊ฒƒ์€ ๋งค์šฐ ๋ช…๋ฐฑํ•˜๋‹ค.

 

์ด์ œ ์šฐ๋ฆฌ๋Š” Cross-entropy๋ฅผ ์‹ค์ œ ํ™•๋ฅ ๋ถ„ํฌ p์™€ ์˜ˆ์ธก ํ™•๋ฅ ๋ถ„ํฌ q์˜ ํ•จ์ˆ˜๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

 

์ถœ์ฒ˜: https://web.stanford.edu/class/archive/cs/cs224n

 

์˜ˆ์ธก ํ™•๋ฅ ์˜ ๋กœ๊ทธ๊ฐ’์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋นผ๋ฉด entropy ์‹๊ณผ ๋น„์Šทํ•ด๋ณด์ธ๋‹ค. ์˜ˆ์ธก์ด ์™„๋ฒฝํ•˜๋‹ค๋ฉด, ์ฆ‰ ์˜ˆ์ธก ๋ถ„ํฌ์™€ ์‹ค์ œ ๋ถ„ํฌ๊ฐ€ ๋™์ผํ•˜๋‹ค๋ฉด cross-entropy๋Š” entropy์™€ ๊ฐ™๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฅด๋ฉด cross-entropy๊ฐ€ ์—”ํŠธ๋กœํ”ผ๋ณด๋‹ค ๋น„ํŠธ ์ˆ˜๋งŒํผ ์ปค์ง„๋‹ค. Cross-entropy๊ฐ€ entropy๋ฅผ ์ดˆ๊ณผํ•˜๋Š” ์–‘์„ ์ƒ๋Œ€ ์—”ํŠธ๋กœํ”ผ๋‚˜ ๋” ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” ์ฟจ๋ฐฑ-๋ผ์ด๋ธ”๋Ÿฌ ๋ฐœ์‚ฐ(KL-Divergence)์ด๋ผ๊ณ  ํ•œ๋‹ค.

 

์ถ”๊ฐ€ ์ž๋ฃŒ

https://web.stanford.edu/