Claude Shannonโ€™s Entropy

2018-11-25
Jun Sok Huhh | ๐Ÿ lostineconomics.com also posted in LINK

์—”ํŠธ๋กœํ”ผ?

๋ฌธ์†กํ•œ ์‚ฌ๋žŒ๋“ค์€ ๋Œ€์ฒด๋กœ ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ์ ‘ํ•˜๋ฉด ๋จธ๋ฆฌ๊ฐ€ ๋ฉํ•ด์ง„๋‹ค. ๊ธ€์“ด์ด์˜ ๋ฌธ์†กํ•œ ์ƒ์‹์œผ๋กœ ์—”ํŠธ๋กœํ”ผ๋Š” โ€˜๋ฌด์งˆ์„œ๋„โ€™ ๋œ๋‹ค. ์—ด์—ญํ•™์˜ ๊ฐœ๋… ๋ง์ด๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๊ธฐ๊ณ„ํ•™์Šต์—์„œ ์ด ๋…€์„์ด ์™œ ๋‚˜์˜ค์ง€?

๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋งํ•˜๋ฉด ๋ฐฐ์›€์ด ์งง์•˜๋‹ค. ์—”ํŠธ๋กœํ”ผ๋ผ๋Š” ๊ฐœ๋…์„ ๋†“๊ณ  ๋ฌผ๋ฆฌํ•™๊ณผ ์ •๋ณดํ•™ ์‚ฌ์ด์— ๊ด€๋ จ์ด ์žˆ๋”๋ผ. ์ œ์ž„์Šค ๊ธ€๋ฆญ์ด ์“ด ์ธํฌ๋ฉ”์ด์…˜ 9์žฅ์— ๊ด€๋ จ๋œ ๋‚ด์šฉ์ด ์ž์„ธํ•˜๊ฒŒ ์†Œ๊ฐœ๋˜์–ด ์žˆ์œผ๋‹ˆ ๊ด€์‹ฌ์ด ์žˆ์œผ์‹œ๋‹ค๋ฉด ์ฐธ๊ณ ํ•˜์‹œ๋ผ. ๊ฐ„๋žตํ•˜๊ฒŒ ๋งˆ์Œ๋Œ€๋กœ ์š”์•ฝํ•ด ๋ณด๊ฒ ๋‹ค.

"์—ด์—ญํ•™ ์ œ2๋ฒ•์น™"์œผ๋กœ ์•Œ๋ ค์ง„ ๋‚ด์šฉ์—์„œ "์—”ํŠธ๋กœํ”ผ์˜ ์ฆ๊ฐ€"๋Š” ํ†ต๊ณ„์ ์ธ ๊ฒฝํ–ฅ์„ฑ์ด๋‹ค. ์ฆ‰ ๊ฒฝํ–ฅ์ ์œผ๋กœ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ์ฆ๊ฐ€ํ•œ๋‹ค. ๋งŒ์ผ ์–ด๋–ค ์กด์žฌ๊ฐ€ ์ด ๊ฒฝํ–ฅ์„ฑ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์—”ํŠธ๋กœํ”ผ์˜ ์ฆ๊ฐ€๋ฅผ ๋ง‰๋Š” ์˜๊ตฌ ์šด๋™๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฐ ์Šค๋งˆํŠธํ•œ ์กด์žฌ๋ฅผ ๋งฅ์Šค์›ฐ์€ '๋„๊นจ๋น„โ€™๋ผ๊ณ  ๋ถˆ๋ €๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๊ฒƒ์ด ์ธ๋ฅ˜ ์˜์›์˜ ๋ฏธ๋ชฝ์ธ "์˜๊ตฌ๊ธฐ๊ด€"์˜ ์ถ”๊ตฌ๋ฅผ ๋‚ณ๊ธฐ๋„ ํ–ˆ๋‹ค๊ณ .

์ข‹๋‹ค. ์ผ๋‹จ ๊ทธ๋Ÿฐ ๊นœ์ฐํ•œ ๋„๊นจ๋น„๊ฐ€ ์žˆ๋‹ค๊ณ  ์น˜์ž. ์ด ๋„๊นจ๋น„๋Š” ์–ด๋–ป๊ฒŒ ์ •๋ณด๋ฅผ ์–ป๊ฒŒ ๋˜๋Š”๊ฐ€? ๋„๊นจ๋น„๋ผ๋ฉด 0์— ๊ฐ€๊นŒ์šด ๋น„์šฉ์œผ๋กœ ์ด๋Ÿฐ ์ •๋ณด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ ๊ทธ๋Ÿฐ ๋„๊นจ๋น„๋Š” ์–ด๋””์—๋„ ์—†๋‹ค. ๋ฌผ์งˆ์˜ ์ƒํƒœ์— ๊ด€ํ•œ ์ •๋ณด๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ทธ์— ์ƒ์‘ํ•˜๋Š” ๋Œ“๊ฐ€๋ฅผ ์น˜๋Ÿฌ์•ผ ํ•œ๋‹ค. ๋„๊นจ๋น„๊ฐ€ ์ •๋ณด๋ฅผ ์•Œ๊ฒŒ ๋˜๋ฉด ์•Œ๊ฒŒ ๋ ์ˆ˜๋ก (๋„๊นจ๋น„๊ฐ€ ์—†๋Š” ์„ธ์ƒ์—์„œ) ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’์•„์ง„๋‹ค. ์ฆ‰, ์ •๋ณด๊ฐ€ ์ƒ๊ธฐ๋ฉด ์—”ํŠธ๋กœํ”ผ์˜ ์ฆ๊ฐ€๋กœ ๊ฐ’์„ ์น˜๋ฅด๊ฒŒ ๋œ๋‹ค.

์–ด์จŒ๋“  ์ •๋ณดํ•™์˜ ์ฐฝ์‹œ์ž ๋Œ๋กœ๋“œ ์„€๋„Œ(Claude Shannon)์ด ์—ฌ๊ธฐ์— ์ฃผ๋ชฉํ–ˆ๋‹ค. ์–ด๋–ค ์ •๋ณด์˜ ์ƒํƒœ๊ฐ€ ๋ถˆํ™•์‹คํ•˜๋‹ค๊ณ  ํ•  ๋•Œ, ์ด ๋ถˆํ™•์‹ค์„ฑ์„ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋” ๋งŽ์€ ์ •๋ณด๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ๋งŒ์ผ ์ƒํƒœ๊ฐ€ ๋œ ๋ถˆํ™•์‹คํ•˜๋‹ค๋ฉด ํŒŒ์•…ํ•˜๋Š” ๋ฐ ์ •๋ณด๊ฐ€ ์ ๊ฒŒ ํ•„์š”ํ•  ๊ฒƒ์ด๋‹ค. ์ด์ ์—์„œ ์–ด๋–ค ์‹œ๊ทธ๋„, ์ฆ‰ ์ •๋ณด์˜ ์ƒํƒœ ํ˜น์€ ํ’ˆ์งˆ์„ ์ธก์ •ํ•˜๋Š” ๋ฐ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์“ธ ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ? ์žก์Œ์€ ์ ๊ณ  ์‹œ๊ทธ๋„์€ ๋งŽ์€ ์ •๋ณด์ผ์ˆ˜๋ก ์—”ํŠธ๋กœํ”ผ๋Š” ๋‚ฎ์„ ํ„ฐ๋‹ค. ๋ฐ‘์ฒœ์ด ๋“œ๋Ÿฌ๋‚˜๊ธฐ ์ „์— ์—ฌ๊ธฐ๊นŒ์ง€๋งŒ ํ•ด๋‘์ž.

์—”ํŠธ๋กœํ”ผ๋ฅผ ์ •์˜ํ•˜๊ธฐ ์œ„ํ•œ ์š”์†Œ

์˜์™ธ์„ฑ(surprisal)

์ œ์ž„์Šค ๊ธ€๋ฆญ์˜ ์ฑ…์—์„œ surpirsal์„ "์˜์™ธ์„ฑ"์œผ๋กœ ๋ฒˆ์—ญํ–ˆ์œผ๋ฏ€๋กœ ์šฐ๋ฆฌ๋„ ์ผ๋‹จ ๋”ฐ๋ฅด๋„๋ก ํ•˜์ž. ์˜์™ธ์„ฑ์ด๋ž€ ์–ด๋–ค ์‚ฌ๊ฑด์ด ์ฃผ๋Š” ๋†€๋ผ์›€์˜ ์ •๋„๋‹ค. ์›”๋“œ์ปต ์ถ•๊ตฌ์—์„œ ํ•œ๊ตญ์ด ๋…์ผ์„ ์ด๊ธธ ํ™•๋ฅ ์€ ๋†’์ง€ ์•Š๋‹ค. ์ด๋Ÿฐ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ–ˆ๋‹ค๋ฉด, ์ด๋Š” ์˜์™ธ์„ฑ์˜ ์ˆ˜์ค€์ด ๋†’์€ ์‚ฌ๊ฑด์ด๋‹ค.

์œ ํ•œํ•œ ์ „์ฒด ์‚ฌ๊ฑด์˜ ์ธ๋ฑ์Šค(๊ณ ์œ  ๋ฒˆํ˜ธ)๋ฅผ 1,โ€ฆ,n1, \dotsc, n์ด๋ผ๊ณ  ํ•˜์ž. ์ด๋•Œ ์‚ฌ๊ฑด ii๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด pip_i๋‹ค. ์ด๋•Œ ์ด๋Ÿฐ pip_i๊ฐ€ ์ง€๋‹ˆ๋Š” ์˜์™ธ์„ฑ ss๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•˜์ž.

s=โˆ’logโกpi s = -\log p_i

๋กœ๊ทธ์˜ ๋ฐ‘์ˆ˜๋Š” ์–ด๋–ค ๊ฒƒ์„ ์จ๋„ ๋˜์ง€๋งŒ ๋””์ง€ํ„ธ ์ •๋ณด๊ฐ€ ์ด์ง„์ˆ˜์ธ ๊ด€๊ณ„๋กœ ๊ณ„์‚ฐ์˜ ํŽธ์˜๋ฅผ ์œ„ํ•ด ๋Œ€์ฒด๋กœ 2๋ฅผ ๋งŽ์ด ์“ด๋‹ค. pip_i๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ๋†’์„ ๊ฐ’์„ ์ง€๋‹ˆ๊ฒŒ ๋˜๊ธฐ ๋•Œ๋ฌธ์— ์•ž์— ๋งˆ์ด๋„ˆ์Šค๋ฅผ ๋ถ™์˜€๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋„ ์ข‹๋‹ค. ์•„๋‹ˆ๋ฉด, pip_i๊ฐ€ 0๊ณผ 1์‚ฌ์ด์˜ ๊ฐ’์ด๊ธฐ ๋•Œ๋ฌธ์— log์˜ ๊ฐ’์ด ๋งˆ์ด๋„ˆ์Šค๊ฐ€ ๋˜๊ณ  ๋งˆ์ด๋„ˆ์Šค๋ฅผ ๋ถ™์—ฌ์„œ ์ทจ์ง€๋ฅผ ๋”ฐ๋ฅด๋ฉด์„œ ์–‘์ˆ˜๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋„ ์ข‹๊ฒ ๋‹ค.

Entropy

์šฐ๋ฆฌ๊ฐ€ ์—”ํŠธ๋กœํ”ผ๋ฅผ ํ†ตํ•ด ์ˆ˜์น˜๋กœ ์š”์•ฝํ•˜๊ณ  ์‹ถ์€ ์ •๋ณด๋Š” ๊ฐœ๋ณ„ ์‚ฌ๊ฑด์ด ์•„๋‹ˆ๋ผ ์‚ฌ๊ฑด ์ „์ฒด ์•„์šฐ๋ฅด๋Š” ํ˜„์žฌ์˜ ๋ถˆํ™•์‹คํ•œ ์ƒํƒœ๋‹ค. ๋”ฐ๋ผ์„œ ์•ž์„œ ์ •์˜ํ•œ ๊ฐœ๋ณ„ ์‚ฌ๊ฑด์˜ ์˜์™ธ์„ฑ์„ ์ „์ฒด๋ฅผ ๋Œ€ํ‘œํ•˜๋Š” ๊ฐ’์œผ๋กœ ๋ฐ”๊ฟ”์•ผ ํ•œ๋‹ค. ์‰ฝ๋‹ค. ๊ธฐ๋Œ“๊ฐ’์„ ๊ตฌํ•˜๋ฉด ๋œ๋‹ค. ์•ž์„œ ์ •์˜ํ•œ ss๊ฐ€ ํ™•๋ฅ  ๋ณ€์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ๋Œ“๊ฐ’์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์‰ฝ๊ฒŒ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ธฐ๋Œ“๊ฐ’ ๋‹ค๋ฆ„ ์•„๋‹Œ ์ •๋ณด์˜ ์—”ํŠธ๋กœํ”ผ๋‹ค.

e=โˆ’โˆ‘i=0npilogโกpi e = - \sum_{i=0}^{n} p_i \log p_i

Cross entropy

์ด์ œ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ์˜ ๊ฐœ๋…์„ ์‚ดํŽด๋ณด์ž. ์„€๋„Œ์ด ์ •์˜ํ•œ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ๋™์ผํ•œ ๋ฐฐํ›„ ์‚ฌ๊ฑด๋“ค์— ๊ด€ํ•ด์„œ ๋‘ ๊ฐœ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ pp, qq๋ผ๊ณ  ํ•˜์ž. ์ด๋•Œ pp๋ฅผ ํŽธ์˜์ƒ ๋ฐฐํ›„ ์‚ฌ๊ฑด๋“ค์— ๊ด€ํ•œ ์ฐธ ํ™•๋ฅ  ๋ถ„ํฌ๋ผ๊ณ  ํ•˜๊ณ  qq๋ฅผ ์ด์— ๋Œ€ํ•œ ์ถ”์ •์น˜๋ผ๊ณ  ํ•˜์ž. pp, qq๊ฐ€ ์ด์‚ฐ ํ™•๋ฅ  ๋ถ„ํฌ๋ผ๋ฉด ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

H(p,q)=โˆ’โˆ‘i=0npilogโกqi H(p, q) = -\sum_{i=0}^n p_i \log q_i

qq๋Š” pp์˜ ์ถ”์ •์น˜์ด๋ฏ€๋กœ ์ง๊ด€์ ์œผ๋กœ (๊ทธ๋ฆฌ๊ณ  ์ˆ˜ํ•™์ ์œผ๋กœ) H(p,q)โ‰ฅH(p,p)=eH(p,q) \geq H(p,p) = e๊ฐ€ ์„ฑ๋ฆฝํ•œ๋‹ค. ์ด๋ฅผ ๋ˆˆ์œผ๋กœ ์ง์ ‘ ํ™•์ธํ•ด๋ณด๊ณ  ์‹ถ๋‹ค๋ฉด LINK๋ฅผ ์ฐธ๊ณ ํ•˜์‹œ๋ผ.

๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ๋ฌด์—‡์„ ๋œปํ• ๊นŒ? Kraft-McMillan ์ •๋ฆฌ์— ๋”ฐ๋ฅด๋ฉด, ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ๋Š” ์ฐธ์ธ ๋ถ„ํฌ๊ฐ€ pp์ด๊ณ  ์ด์— ๊ด€ํ•œ ๋ถˆ์™„์ „ํ•œ ์ถ”์ • ๋ถ„ํฌ qq๊ฐ€ ์žˆ์„ ๋•Œ, ๊ฐœ๋ณ„ ์‹คํ˜„๊ฐ’์„ ๋งž์ถ”๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์งˆ๋ฌธ ์ˆ˜์˜ ๊ธฐ๋Œ“๊ฐ’์ด๋‹ค. ์ฆ‰, pxp_x์— ๋Œ€ํ•œ ์ถ”์ •์น˜ qxq_x๋กœ ์ฐธ์ธ pxp_x๋ฅผ ๋งž์ถœ ๋•Œ๊นŒ์ง€ ์†Œ๋ชจํ•ด์•ผ ํ•˜๋Š” ์ •๋ณด์˜ ํฌ๊ธฐ๋‹ค. ๋‹ต์„ ๋งž์ถœ ๋•Œ๊นŒ์ง€ ์ง„ํ–‰ํ•˜๋Š” ์Šค๋ฌด๊ณ ๊ฐœ๋ฅผ ๋– ์˜ฌ๋ฆฌ๋ฉด ๋˜๊ฒ ๋‹ค. ์—ฐ์Šต ์‚ผ์•„์„œ, ์˜ˆ/์•„๋‹ˆ์˜ค๋กœ ๊ตฌ๋ณ„๋˜๋Š” ์ด์ง„ ๋ถ„๋ฅ˜์˜ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ ์–ด๋ณด์ž. "์•„๋‹ˆ์˜ค"๊ฐ€ ๋  ํ™•๋ฅ ์€ "์˜ˆ"์ผ ํ™•๋ฅ ์„ 1์—์„œ ๋บ€ ๊ฐ’์ด๋ฏ€๋กœ ๊ฒฐ๊ตญ ํ•„์š”ํ•œ ๊ฐ’์€ p0p_0, q0q_0 ๋‘ ๊ฐœ์ด๋‹ค.

H(p,q)=โˆ’โˆ‘i=01pilogโก(qi)=โˆ’(p0logโกq0+p1logโกq1)=โˆ’(p0logโกq0+(1โˆ’p0)logโก(1โˆ’q0)) \begin{aligned} H(p,q) = & - \sum_{i=0}^1 p_i \log (q_i) \\ = & -( p_0 \log q_0 + p_1 \log q_1 ) \\ = & -\left( p_0 \log q_0 + (1-p_0) \log (1-q_0 ) \right) \end{aligned}

์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด์—์„œ ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋˜๋Š”๊ฐ€?

์•ž์„œ ๋ณด์•˜๋“ฏ์ด ์„€๋„Œ์€ ๋ฌผ๋ฆฌํ•™์˜ ์—”ํŠธ๋กœํ”ผ ๊ฐœ๋…์„ ๊ฐ€์ ธ์™€ ์ •๋ณด์— ๊ด€ํ•œ ์ผ์ข…์˜ ํ’ˆ์งˆ ์ง€ํ‘œ๋ฅผ ๋งŒ๋“ค๋‹ค. ์„€๋„Œ์˜ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๊ฐ€์žฅ ์ž˜ ํ™œ์šฉ๋œ ์‚ฌ๋ก€๊ฐ€ ๋ฐ”๋กœ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด(decision tree)๋‹ค. ์ด๋ฅธ๋ฐ” ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด(decision tree)๋ž€ ํŒ๋‹จ์„ ํ•ด์•ผ ํ•˜๋Š” ์–ด๋–ค ๋ถ„๊ธฐ์—์„œ ์–ด๋–ค ๊ธฐ์ค€ ํ˜น์€ ์†์„ฑ์œผ๋กœ ์ž๋ฃŒ๋ฅผ ๋‚˜๋ˆ„๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด๋ผ๋Š” ๊ฒŒ ๊ฒฐ๊ตญ ์œ„์—์„œ ๋‚ด๋ ค์˜ค๋ฉด์„œ ์Šค๋ฌด๊ณ ๊ฐœ๋ฅผ ๋ฌป๋Š” ์…ˆ์ด๊ณ , ์„€๋„Œ์˜ ์—”ํŠธ๋กœํ”ผ ๊ฐœ๋…๊ณผ ์ž˜ ๋งž๋Š”๋‹ค.

๋ฌด์—‡์„ ๊ธฐ์ค€์œผ๋กœ ๋‚˜๋ฌด์˜ ๊ฐ€์ง€๋ฅผ ๋‚˜๋ˆŒ๊นŒ? ๋‚˜๋ฌด์˜ ๊ฒฐ์ • ์ง€์ (๋…ธ๋“œ)์—์„œ ๊ฐ€์ง€๋ฅผ ๋‚˜๋ˆ„๋Š” ๊ธฐ์ค€์œผ๋กœ ์—”ํŠธ๋กœํ”ผ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์ข‹์ง€ ์•Š์„๊นŒ? ํŠน์ • ํ”ผ์ณ์˜ ๊ฒฐ์ •์ง€์ ์ด ์ง€๋‹Œ ์ •๋ณด ์ด๋“(information gain)์„ ์ •์˜ํ•ด๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

IG(S,F)=e(S)โˆ’โˆ‘fโˆˆFโˆฃSfโˆฃโˆฃSโˆฃe(Sf) IG(S, F) = e(S) - \sum_{f \in F} \dfrac{|S_f|}{|S|} e(S_f)

์‹์ด ์ข€ ๋ณต์žกํ•ด ๋ณด์ด์ง€๋งŒ ์ทจ์ง€๋Š” ๊ฐ„๋‹จํ•˜๋‹ค. ๋งˆ์ด๋„ˆ์Šค ๋’ค์˜ ํ•ฉ์˜ ์˜๋ฏธ๋Š” ์ด๋ ‡๋‹ค. ์–ด๋–ค ์†์„ฑ์— ๊ธฐ๋ฐ˜ํ•ด ๊ฒฐ์ • ์ง€์ ์„ ๋‚˜๋ˆˆ๋‹ค๊ณ  ํ•  ๋•Œ, ๊ทธ ๊ฒฐ์ • ์ง€์ ์— ๋„๋‹ฌํ•  ๋ฌด์ž‘์œ„ ํ™•๋ฅ ์— ๊ทธ ์ง‘ํ•ฉ์ด ์ง€๋‹Œ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ณฑํ•œ ๊ฐ’์„ ํ•ด๋‹น ์†์„ฑ์— ๋Œ€ํ•ด์„œ ์ „๋ถ€ ๋”ํ•ด์ค€ ๊ฐ’์ด๋‹ค. ํ˜„์žฌ ์•„๋ฌด๋Ÿฐ feature๋„ ํ™œ์šฉํ•˜์ง€ ์•Š์€ ์ƒํƒœ์˜ ์—”ํŠธ๋กœํ”ผ์—์„œ feature๊ฐ€ ์ง€๋‹Œ ์†์„ฑ๋“ค์„ ํ†ตํ•ด ํ†ตํ•ด ๋ถ„๋ฅ˜๋ฅผ ํ•œ๋ฒˆ ๊ฑฐ์ณค์„ ๋•Œ์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋บ€๋‹ค. ๋ถ„๋ฅ˜๋ฅผ ๊ฑฐ์นœ๋‹ค๋Š” ๊ฒƒ์€ ์งˆ๋ฌธ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™๋‹ค. ์ด๋Ÿฐ ์ •๋ณด๋ฅผ ํš๋“ํ•จ์— ๋”ฐ๋ผ์„œ ์ „์ฒด์˜ ์—”ํŠธ๋กœํ”ผ๋Š” ์ ์–ด๋„ ๋Š˜์–ด๋‚˜์ง€๋Š” ์•Š์„ ๊ฒƒ์ด๋‹ค. ๋‘˜ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ํ•ด๋‹น feature๊ฐ€ ์ง€๋‹Œ ์ •๋ณด ํ’ˆ์งˆ(ํ˜น์€ ์—”ํŠธ๋กœํ”ผ ๊ฐ์†Œ์˜ ๊ธฐ์—ฌ๋ถ„)๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒ ๋‹ค.

์•„๋ž˜์˜ ์‚ฌ๋ก€๋กœ ์œ„์˜ ์‹์„ ๋‹ค์‹œ ์ดํ•ดํ•ด๋ณด์ž.


์œ„์™€ ๊ฐ™์€ ํ•™์Šต ์ž๋ฃŒ๊ฐ€ ์ฃผ์–ด์กŒ๋‹ค๊ณ  ํ•˜์ž. ์˜ˆ์ธกํ•˜๊ณ  ์‹ถ์€ ๋ชฉํ‘œ ๋Œ€์ƒ์€ ํ…Œ๋‹ˆ์Šค๋Š” ์น  ๊ฒƒ์ธ์ง€ ๋ง ๊ฒƒ์ธ์ง€์˜ ์—ฌ๋ถ€(PLAY?)๋‹ค. Feature ํ†ตํ•œ ๋ถ„๋ฅ˜๋ฅผ ๊ฑฐ์น˜์ง€ ์•Š์•˜์„ ๋•Œ ํ•™์Šต ์ž๋ฃŒ ์ „์ฒด์˜ ์—”ํŠธ๋กœํ”ผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ์ „์ฒด์—์„œ ํ”Œ๋ ˆ์ด๋ฅผ ํ•œ ํšŸ์ˆ˜๋Š” 9๋ฒˆ ํ•˜์ง€ ์•Š์€ ํšŸ์ˆ˜๋Š” 5๋ฒˆ์ด๋‹ค. ์ฆ‰.

Sโ‰ก{No, No, Yes, Yes, Yes, , No, Yes, , No, Yes, Yes, Yes, Yes, Yes, No} S \equiv \left\lbrace \text{No, No, Yes, Yes, Yes, , No, Yes, , No, Yes, Yes, Yes, Yes, Yes, No} \right\rbrace

SS์˜ ์—”ํŠธ๋กœํ”ผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

e(S)=โˆ’(914logโก2914+514logโก2514)=0.94 e(S) = -(\dfrac{9}{14} \log_2 \frac{9}{14} + \dfrac{5}{14} \log_2 \frac{5}{14} ) = 0.94

์ด์ œ ์œ„์˜ ์ž๋ฃŒ์—์„œ ์ฃผ์–ด์ง„ feature๋ฅผ ํ™œ์šฉํ•ด์„œ IG๋ฅผ ๊ตฌํ•ด๋ณด๋„๋ก ํ•˜์ž. ์—ฌ๊ธฐ์„œ๋Š” ์ฐธ๊ณ ๋กœ Outlook(๋‚ ์”จ)๋ผ๋Š” ํ•˜๋‚˜์˜ feature์— ๋Œ€ํ•ด์„œ ๊ณ„์‚ฐํ•˜๋„๋ก ํ•˜๊ฒ ๋‹ค. ๋‚˜๋จธ์ง€ feature์— ๋Œ€ํ•ด์„œ๋Š” ๊ฐ์ž ์—ฐ์Šตํ•ด๋ณด์‹œ๊ธฐ ๋ฐ”๋ž€๋‹ค. Outlook(๋‚ ์”จ) feature๊ฐ€ ์ง€๋‹Œ ์†์„ฑ์€ โ€œSunnyโ€, โ€œOvercastโ€, โ€œRainโ€ ์„ธ ๊ฐ€์ง€๋‹ค. ์•„๋ž˜์˜ ์‹์—์„œ Outlook์€ Sunny, Overcast, Rain์„ ์›์†Œ๋กœ ํ•˜๋Š” ์ง‘ํ•ฉ์˜ ์˜๋ฏธ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ๊ฐ๊ฐ์˜ ์†์„ฑ์— ๋Œ€ํ•œ e(Sf)e(S_f)๋Š” ๋‹ค์Œ ๊ฐ™๋‹ค.

e(SSunny)=โˆ’(25logโก225+35logโก235)e(SOvercast)=0e((SRain)=โˆ’(35logโก235+25logโก225) \begin{aligned} e(S_{\text{Sunny}}) &= -( \dfrac{2}{5} \log_2 \dfrac{2}{5} + \dfrac{3}{5} \log_2 \dfrac{3}{5}) \\ e(S_{\text{Overcast}}) & = 0 \\ e((S_{\text{Rain}}) & = -( \dfrac{3}{5} \log_2 \dfrac{3}{5} + \dfrac{2}{5} \log_2 \dfrac{2}{5}) \end{aligned}

๋”ฐ๋ผ์„œ,

โˆ‘fโˆˆOverlookโˆฃSfโˆฃโˆฃSโˆฃe(Sf)=514e(SSunny)+414e(SOvercast)+514e(SRain) \sum_{f \in \text{Overlook}} \dfrac{|S_f|}{|S|} e(S_f) = \dfrac{5}{14} e(S_{\text{Sunny}}) + \dfrac{4}{14} e(S_{\text{Overcast}}) + \dfrac{5}{14} e(S_{\text{Rain}})

์ด๋ ‡๊ฒŒ ๊ฐ 4๊ฐœ์˜ feature์— ๋Œ€ํ•ด์„œ IG์„ ๊ตฌํ•˜๋ฉด ์–ด๋–ค feature๊ฐ€ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋” ๋‚ฎ์ถ”๋Š”์ง€๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ณ„์‚ฐ์„ ํ•ด๋ณด๋ฉด Outlook์ด ์ œ์ผ ๋†’์€ IG๋ฅผ ์ง€๋‹ˆ๊ณ  ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ Outlook์ด ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด์—์„œ ๊ฐ€์žฅ ์ƒ๋‹จ์— ์œ„์น˜ํ•˜๊ฒŒ ๋œ๋‹ค. ์ด์ œ 1์ฐจ ๋ถ„๋ฅ˜๋ฅผ ๊ฑฐ์นœ ํ›„ ๊ฐ๊ฐ ๋ถ„๋ฅ˜๋œ ํ•˜์œ„ ์ง‘ํ•ฉ์— ๋Œ€ํ•ด์„œ ๊ฐ™์€ ๋ฐฉ์‹์˜ ๋ถ„๋ฅ˜๋ฅผ ๋ฐ˜๋ณตํ•œ๋‹ค. ๋ถ„๋ฅ˜๋Š” ๋” ์ด์ƒ ๋ถ„๋ฅ˜๋  ๊ฒƒ์ด ์—†์„ ๋•Œ๊นŒ์ง€, ์ฆ‰ ์ฃผ์–ด์ง„ ์ง‘ํ•ฉ์˜ ์—”ํŠธ๋กœํ”ผ๊ฐ€ 0์ด ๋  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณตํ•œ๋‹ค.

์—”ํŠธ๋กœํ”ผ๊ฐ€ 0์ด ๋œ๋‹ค๋Š” ๊ฒƒ์€ ๋ฌด์Šจ ๋œป์ผ๊นŒ? ํ•ด๋‹น ๋ถ„๋ฅ˜์— ์†ํ•˜๋Š” ๊ฐœ์ฒด์˜ ์†์„ฑ์ด ๋ชจ๋‘ ๋™์ผํ•˜๋‹ค๋Š” ๋œป์ด๋‹ค. ์•ž์„œ Outlook์ด๋ผ๋Š” feature์—์„œ Overacast๋Š” ์—”ํŠธ๋กœํ”ผ๊ฐ€ 0์ด์—ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์ด ๊ฒฐ์ • ์ง€์ ์— ๋„๋‹ฌํ•˜๋ฉด ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋‚ฎ์ถ”๊ธฐ ์œ„ํ•œ ๋” ์ด์ƒ์˜ ๋ถ„๋ฅ˜๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค. ์•„๋ž˜ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด์—์„œ ๋ณด๋“ฏ์ด ๋‚˜๋ฌด์˜ ์ตœ์ข… ๊ฒฐ์ • ์ง€์ ์— ์†ํ•œ ๊ฐœ์ฒด๋“ค์˜ ๋ชฉํ‘œ ๊ฒฐ์ • ์‚ฌํ•ญ์€ ๋ชจ๋‘ ๋™์ผํ•˜๋‹ค.


Reference

  1. Wikipedia: Entropy_information
  2. A Mathematical Theory of Communication
  3. Decision tree example

๐Ÿ lostineonomics.com | Jun Sok Huhh