Understanding Regression

2019-10-25

Jun Sok Huhh | ๐Ÿ lostineconomics.com
also posted in NCSOFT-DANBI

tl;dr

๊ณต๊ฐ„์—์„œ ๋ฐ”๋ผ๋ณธ ํšŒ๊ท€๋ถ„์„

์—ฌ๊ธฐ์„œ ํšŒ๊ท€๋ถ„์„์„ ํ•ด์„คํ•  ์ƒ๊ฐ์€ ์—†๋‹ค. ์ด๋ฏธ ๋„ˆ๋ฌด๋‚˜ ๋งŽ์€ ๊ทธ๋ฆฌ๊ณ  ๋งค์šฐ ํ›Œ๋ฅญํ•œ ๋‚ด์šฉ๋“ค์ด ์ฑ…, ์›น, ๊ฐ•์˜๋กœ ๋„˜์ณ๋‚ ํ…Œ๋‹ˆ๊นŒ. ์ด ๊ธ€์˜ ์šฉ๋„๋Š” ๊ทธ๋ฆผ ํ•˜๋‚˜๋กœ ์ง€๋‚˜์น˜๊ธฐ ์‰ฌ์šด ํšŒ๊ท€๋ถ„์„์˜ 'ํ•ต์‹ฌโ€™์„ ์‚ดํ”ผ๋Š” ๊ฒƒ์ด๋‹ค. crossvalidated์—์„œ ์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋Š” ์ˆœ๊ฐ„ ์ผ์ข…์˜ '๋ˆ์˜ค๋ˆ์ˆ˜โ€™๊ฐ€ ๊ฐ•๋ฆผํ–ˆ๋‹ค. (์ด๋ ‡๊ฒŒ ์ดํ•ดํ•˜๋ฉด ์‰ฌ์› ์„ ๊ฒƒ์„โ€ฆ) ๋จผ์ € ์šฐ๋ฆฌ์—๊ฒŒ ์ต์ˆ™ํ•œ ํšŒ๊ท€๋ถ„์„ ๋ชจ๋ธ์„ ๋งคํŠธ๋ฆญ์Šค๋กœ ์ ์–ด๋ณด์ž.

ฮณYฮณnร—1=ฮณXฮณnร—kฮฒkร—1+ฮฒฮตฮณnร—1 \underset{n \times 1}{\phantom{\bm \gamma}\mathbf{Y}\phantom{\bm \gamma}} = \underset{n \times k}{\phantom{\bm \gamma} \mathbf{X} \phantom{\bm \gamma} }\underset{k \times 1}{\bm \beta} + \underset{n \times 1}{\phantom{\bm \beta} \bm \varepsilon \phantom{\bm \gamma} }

์‹์— ๊ด€ํ•œ ์ž์„ธํ•œ ์„ค๋ช… ์—ญ์‹œ ์ƒ๋žตํ•œ๋‹ค. ๋Œ€์ถฉ nn ๊ฐœ์˜ ๊ด€์ฐฐ ์ˆ˜๊ณผ kk ๊ฐœ์˜ regressor๋ฅผ ์ง€๋‹Œ ์ค‘ํšŒ๊ท€๋ถ„์„ ๋ชจํ˜•์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋˜๊ฒ ๋‹ค. ์•ž์„œ ๋ณธ ๊ทธ๋ฆผ์€ ๋ณดํ†ต ํšŒ๊ท€๋ถ„์„์˜ ์˜ˆ์‹œ๋กœ ๋งŽ์ด ํ™œ์šฉ๋˜๋Š” ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ๋Š” ๋‹ค๋ฅด๋‹ค.1

์œ„ ๊ทธ๋ฆผ์€ 1๊ฐœ์˜ regressor๊ฐ€ ์กด์žฌํ•  ๋•Œ ์ด๊ฒƒ๊ณผ regressand๋ฅผ ๊ทธ๋Œ€๋กœ 2์ฐจ์› ํ‰๋ฉด์— ๊ด€์ฐฐ ์ˆ˜๋งŒํผ ์ฐ์€ ๊ฒƒ์ด๋‹ค. ์ฒซ๋ฒˆ์งธ ๊ทธ๋ฆผ์—์„œ "Observed Y"๋Š” ์  ํ•˜๋‚˜๊ฐ€ nn ๊ฐœ์˜ regressand๋ฅผ ๋ชจ๋‘ ํฌ๊ด„ํ•œ๋‹ค. YโˆˆRn\mathbf{Y} \in {\mathbb R}^{n} ๋ฒกํ„ฐ, ์ฆ‰ nn ์ฐจ์› ๋ฒกํ„ฐ์ด๊ณ , ์ด๊ฒƒ์ด ํšŒ๊ท€์‹ ์ขŒ๋ณ€์˜ ๊ด€์ฐฐ๊ฐ’ nn ๊ฐœ๋ฅผ ํ‘œํ˜„ํ•œ๋‹ค.

์ด์ œ ์„ ํ˜•๋Œ€์ˆ˜์˜ ์„ธ๊ณ„๋กœ ๋“ค์–ด๊ฐ€๋ณด์ž. X\mathbf X์˜ ์—ด(column)์ด ๊ฐ๊ฐ nn ๊ฐœ์˜ ๊ด€์ฐฐ ๊ฐ’์„ ์ง€๋‹Œ regressor์— ํ•ด๋‹นํ•œ๋‹ค. ์ด ๊ฐ๊ฐ์˜ ์ปฌ๋Ÿผ xix_i๋Š” xiโˆˆRnx_i \in {\mathbb R}^{n} ๋ฒกํ„ฐ์ด๋‹ค. xix_i ๋ฒกํ„ฐ kk ๊ฐœ๊ฐ€ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ณต๊ฐ„์ด X\mathbf X์˜ ์—ด ๊ณต๊ฐ„(column space)์ด๋‹ค. ์•ž์œผ๋กœ ์ด๋ฅผ col X\mathbf X๋กœ ํ‘œ๊ธฐํ•˜์ž.

์ด๋ ‡๊ฒŒ ์ƒ๊ฐํ•˜๋ฉด ์ข‹๊ฒ ๋‹ค. xiโˆˆRnx_i \in {\mathbb R}^{n} ๋ฒกํ„ฐ๊ฐ€ k(<n)k(<n) ๊ฐœ ์žˆ๋‹ค๊ณ  ํ•˜์ž. ์ด๋Š” nn ๋ณด๋‹ค ์ฐจ์›์ด ๋‚ฎ๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐํ•˜ํ•™์ ์œผ๋กœ๋Š” nn ์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ดˆํ‰๋ฉด(hyperplane)์œผ๋กœ ๋‚˜ํƒ€๋‚  ๊ฒƒ์ด๋‹ค. ์œ„ ๊ทธ๋ฆผ์—์„œ ์ปฌ๋Ÿผ ์ŠคํŽ˜์ด์Šค๊ฐ€ ํ‰๋ฉด์œผ๋กœ ํ‘œํ˜„๋˜๋Š” ๊ฒƒ์€ ์ด๋Ÿฌํ•œ ์ทจ์ง€๋‹ค. 3์ฐจ์› ๋ฒกํ„ฐ์˜ ์—ด ๊ณต๊ฐ„์ด ์ƒ์„ฑํ•˜๋Š” ์ดˆํ‰๋ฉด์„ ์˜ˆ์‹œํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

col X\mathbf X์˜ ์ตœ๋Œ€ ์ฐจ์›, ์ฆ‰ X\mathbf X์˜ ๋žญํฌ(์œ„์ˆ˜)๋Š” ๋ฌด์—‡์ผ๊นŒ? ํšŒ๊ท€๋ถ„์„์—์„œ๋Š” ๋Œ€์ฒด๋กœ n>kn > k๊ฐ€ ์ผ๋ฐ˜์ ์ด๊ณ  ์ด๋Ÿฐ ์ƒํ™ฉ์—์„œ X\mathbf X์˜ ๋žญํฌ๋Š” kk๋ฅผ ๋„˜์„ ์ˆ˜ ์—†๋‹ค. ๋‹ค์‹œ ๋งํ•˜๋ฉด, X\mathbf X๊ฐ€ ์ƒ์„ฑํ•˜๋Š”(span)ํ•˜๋Š” ์ปฌ๋Ÿผ ์ŠคํŽ˜์ด์Šค์˜ ์ฐจ์›์˜ ํฌ๊ธฐ๊ฐ€ kk๋ฅผ ๋„˜์„ ์ˆ˜ ์—†๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ž˜ ๋œ ํšŒ๊ท€๋ถ„์„์ด๋ผ๋ฉด rank(X)=k{\rm rank}(\mathbf X) = k๋ฅผ ๋งŒ์กฑํ•œ๋‹ค.

๋งจ ์•ž์— ์ œ์‹œํ–ˆ๋˜ ๊ทธ๋ฆผ์„ ๋‹ค์‹œ ๋ณด์ž. ์•„๋ž˜ ์ƒ‰์น ๋œ ํ‰๋ฉด์ด X\mathbf X๊ฐ€ ์ƒ์„ฑํ•˜๋Š” ์ปฌ๋Ÿผ ์ŠคํŽ˜์ด์Šค, ์ฆ‰ col X\mathbf X๋ฅผ ํ‘œํ˜„ํ•˜๊ณ  ์žˆ๋‹ค. ๋ชน์‹œ ํŠน๋ณ„ํ•œ ๊ฒฝ์šฐ๊ฐ€ ์•„๋‹ˆ๋ผ๋ฉด YโˆˆRn\mathbf Y \in {\mathbb R}^{n} ๋ฒกํ„ฐ๊ฐ€ col X\mathbf X์— ์†ํ•  ๊ฐ€๋Šฅ์„ฑ์€ ์—†๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ํšŒ๊ท€๋ถ„์„์˜ ํ•„์š”๋„ ์• ์ดˆ์— ์—†์—ˆ์„ ๊ฒƒ์ด๋‹ค. col X\mathbf X๋ฅผ ํ†ตํ•ด์„œ Y\mathbf Y๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ ๋ฌด์Šจ ๊ฑฑ์ •์ด ์žˆ๊ฒ ๋Š”๊ฐ€? ๋Œ€์ฒด๋กœ ์šฐ๋ฆฌ๊ฐ€ ๋งˆ์ฃผํ•˜๋Š” ์ƒํ™ฉ์€ nn ์ฐจ์› ๋ฒกํ„ฐ๋ฅผ kk ์ฐจ์› ๊ณต๊ฐ„์— ๋ผ์›Œ ๋„ฃ๊ธฐ ํž˜๋“  ์ƒํ™ฉ์ด๋‹ค.2

ํšŒ๊ท€๋ถ„์„์˜ ๋ชฉํ‘œ๋Š” regressor๋ฅผ ํ†ตํ•ด์„œ, ๋” ์ •ํ™•ํ•˜๊ฒŒ๋Š” regressor์˜ ์ง‘ํ•ฉ์ด ์ƒ์„ฑํ•˜๋Š” ๊ณต๊ฐ„์„ ํ†ตํ•ด์„œ regressand๋ฅผ โ€˜๊ฐ€์žฅโ€™ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ํšŒ๊ท€๋ถ„์„์ด๋ž€ regressand์™€ โ€˜๋‹ฎ์€โ€™ ๊ฒƒ col X\mathbf X์—์„œ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰ Y\mathbf Y์™€ ๋‹ฎ์€ ๋ฌด์—‡์„ X\mathbf X์˜ ์ปฌ๋Ÿผ ์ŠคํŽ˜์ด์Šค์— ์ฐพ์•„์•ผ ํ•œ๋‹ค. ์ง๊ด€์ ์œผ๋กœ ์‰ฝ๊ฒŒ ๋– ์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์ด ํ‰๋ฉด๊ณผ Y\mathbf Y์˜ (์œ ํด๋ฆฌ๋“œ) ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ€์žฅ ์งง๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ๋ฒกํ„ฐ์ผ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ์ตœ๋‹จ๊ฑฐ๋ฆฌ๋Š” Y\mathbf Y์—์„œ X\mathbf X ์ปฌ๋Ÿผ ์ŠคํŽ˜์ด์Šค๋กœ ๋‚ด๋ฆฐ ์ˆ˜์„ ์˜ ๋ฐœ์ด ๋‹ฟ๋Š” col X\mathbf X์˜ ์ง€์ ์ด๋‹ค. col X\mathbf X ๋‚ด์— ์žˆ๋Š” ์ด๋Ÿฐ ์ง€์ ์„ ์ฐพ๋Š” ์—ฐ์‚ฐ์ž(operator)๊ฐ€ ํšŒ๊ท€๋ถ„์„ ๊ณ„์ˆ˜ ฮฒ^\hat{\bm \beta}์ด๋‹ค. ์ฆ‰,

ฮฒ^=(Xโ€ฒX)โˆ’1(Xโ€ฒY) \hat{\bm \beta} = ({\mathbf X}'{\mathbf X})^{-1} ({\mathbf X}' \mathbf Y)

๊ทธ๋ฆฌ๊ณ  ์ด ์—ฐ์‚ฐ์ž๋ฅผ reggressor์˜ ๋ชจ์Œ์ธ col X\mathbf X์— ์ ์šฉํ•˜๋ฉด, Xฮฒ^=Y^\mathbf{X} \hat{\bm \beta} =\hat{\mathbf Y}์ด ๊ณ„์‚ฐ๋œ๋‹ค. ๊ทธ๋ฆผ์—์„œ ๋ณด๋“ฏ์ด Y^\hat{\mathbf Y}์€ Y\mathbf Y์™€ col X\mathbf X์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ์œ„์น˜์— ์กด์žฌํ•œ๋‹ค. Y^\hat{\mathbf Y}๋Š” ์–ด๋–ค ๋ฒกํ„ฐ์ผ๊นŒ? Y^โˆˆRn\hat{\mathbf Y} \in {\mathbb R}^n ๋ฒกํ„ฐ์ง€๋งŒ, col X(โˆˆRk)\mathbf X(\in {\mathbb R}^k)๋‚ด์— ์œ„์น˜ํ•˜๊ณ  ์žˆ๋‹ค. nn ์ฐจ์›์ด kk ์ฐจ์›์œผ๋กœ ์ถ•์†Œ๋œ ์…ˆ์ด๋‹ค. ์ด๊ฒƒ์ด ํšŒ๊ท€๋ถ„์„์˜ ํ•ต์‹ฌ์ด๋‹ค.

์„ ํ˜• ๋Œ€์ˆ˜์˜ ๊ด€์ ์—์„œ ๋‚ด์šฉ์„ ๋‹ค์‹œ ์Œ๋ฏธํ•ด๋ณด์ž. xiโˆˆRnx_i \in {\mathbb R}^n (for i=1,โ€ฆ,ki = 1, \dotsc, k) ๋ฒกํ„ฐ์˜ ๋ฆฌ๊ทธ๋ ˆ์„œ kk ๊ฐœ๋ฅผ ์„ ํ˜• ๊ฒฐํ•ฉํ•ด์„œ ์ดˆํ‰๋ฉด์˜ ํ•œ์ , ์ฆ‰ ์›๋ž˜์˜ ๊ด€์ฐฐ yy์™€ ์ตœ์†Œ ๊ฑฐ๋ฆฌ๋ฅผ ์ง€๋‹ˆ๋Š” ๋ฒกํ„ฐ๋ฅผ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ์ด ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ฮฒi\beta_i๋ฅผ ์•Œ๊ณ  ์žˆ๋‹ค๋ฉด ์ด ๋ฒกํ„ฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋œ๋‹ค. X=[x1,โ€ฆ,xk]{\mathbf X} = [x_1, \dotsc, x_k]์ผ ๋•Œ,

Y^(nร—1)=Xฮฒ=[x1,โ€ฆ,xk][ฮฒ1โ‹ฎฮฒk]=x1ฮฒ1+โ€ฆ+xkฮฒk \begin{aligned} \underset{(n \times 1)}{\hat{\mathbf Y}} & = X\beta \\ & = [x_1, \dotsc, x_k] \begin{bmatrix} \beta_1 \\ \vdots \\ \beta_k \end{bmatrix} \\ &= x_1 \beta_1 + \dotsc + x_k \beta_k \end{aligned}

์•„๋ž˜ ๊ทธ๋ฆผ์„ ์ฐธ๊ณ ํ•˜์ž.

์ด์ œ R2\mathrm R^2์˜ ์˜๋ฏธ๋ฅผ ์‚ดํŽด๋ณด์ž. ๊ฒฐ๋ก ๋ถ€ํ„ฐ ์ด์•ผ๊ธฐํ•˜๋ฉด R2\mathrm R^2๋Š” ๊ทธ๋ฆผ์—์„œ (Yโˆ’Yโ€พ)(\mathbf Y - \overline{\mathbf Y}) ๋ฒกํ„ฐ์™€ (Y^โˆ’Yโ€พ)(\hat{\mathbf Y}-\overline{\mathbf Y}) ๋ฒกํ„ฐ๊ฐ€ ์ด๋ฃจ๋Š” ๊ฐ์˜ ์ฝ”์‚ฌ์ธ ๊ฐ’, ์ฆ‰ cosโกฮธ\cos \theta๋‹ค.

Yโ€พ\overline{\mathbf Y}๋Š” ๋ฌด์—‡์ผ๊นŒ? ํฌ์ŠคํŒ…์˜ ๋งจ ์ฒ˜์Œ ๋ณด์•˜๋˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด Yโ€พ1n\overline{Y} \mathbf{1}_n๋กœ ํ‘œ๊ธฐํ•  ์ˆ˜ ์žˆ๋‹ค. Y\mathbf Y์˜ ํ‰๊ท ๊ฐ’ Yโ€พ\overline{Y}๋งŒ์œผ๋กœ ๊ตฌ์„ฑ๋œ (nร—1)(n \times 1) ๋ฒกํ„ฐ๋‹ค. ์ด ๋ฒกํ„ฐ๋Š” col X\mathbf X ์•ˆ์— ์žˆ์„๊นŒ? ๋‹น์—ฐํžˆ ๊ทธ๋ ‡๋‹ค. X\mathbf X๋Š” ์ตœ๋Œ€ํ•œ k(<n)k(<n) ์ฐจ์›์˜ ๋ฒกํ„ฐ์ด๊ณ , Yโ€พ\overline{\mathbf Y}๋Š” 1์ฐจ์› ๋ฒกํ„ฐ๋‹ค.3

์–ด์จŒ๋“  ์ด ์ฝ”์‚ฌ์ธ ๊ฐ’์˜ ์˜๋ฏธ๋Š” ๋ฌด์—‡์ผ๊นŒ?

๊ทธ๋ฆผ์—์„œ ๋ณด๋“ฏ์ด ์„ธ ๊ฐœ์˜ ๋ฒกํ„ฐ๊ฐ€ ์ง๊ฐ์‚ผ๊ฐํ˜•์„ ์ด๋ฃจ๊ณ  ์žˆ์œผ๋ฏ€๋กœ ์•„๋ž˜์˜ ์‹์ด ์„ฑ๋ฆฝํ•œ๋‹ค.

โˆฅYโˆ’Yโ€พโˆฅ2TSS=โˆฅYโˆ’Y^โˆฅ2RSS+โˆฅY^โˆ’Yโ€พโˆฅ2ESS \underset{\text{TSS}}{\Vert \mathbf Y - \overline{\mathbf Y} \Vert^2} = \underset{\text{RSS}}{\Vert \mathbf Y - \hat{\mathbf Y} \Vert^2} + \underset{\text{ESS}}{\Vert \hat{\mathbf Y} - \overline{\mathbf Y} \Vert^2}

ํ”ํ•œ ํ”ผํƒ€๊ณ ๋ผ์Šค์˜ ์ •๋ฆฌ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ด๊ฒƒ ์–ด๋””์„œ ๋งŽ์ด ๋ณด๋˜ ์‹์ด๋‹ค. ํšŒ๊ท€๋ถ„์„ ๋ฐฐ์šฐ๋ฉด ์–ธ์ œ๋‚˜ ๋‚˜์˜ค๋Š” ์‹์ด๋‹ค. Regressand์˜ ํ‰๊ท ๊ณผ ๊ด€์ฐฐ์˜ ์ด๋ฅธ๋ฐ” ์ด ์ œ๊ณฑ์˜ ํ•ฉ(TSS: Total Sum of Squares)์€ ์„ค๋ช…๋œ ์ œ๊ณฑ์˜ ํ•ฉ(ESS: Explained Sum of Squares)๊ณผ ์ž”์ฐจ ์ œ๊ณฑ์˜ ํ•ฉ(RSS:Residual Sum of Squares)์™€ ๊ฐ™๋‹ค. ๋Œ€์ฒด๋กœ ๋ณต์žกํ•˜๊ฒŒ ์†Œ๊ฐœ๋˜๋Š” ์ด ์‹์ด ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ๋ณด๋ฉด ๊ทธ๋ƒฅ ํ”ผํƒ€๊ณ ๋ผ์Šค์˜ ๊ณต์‹์— ๋ถˆ๊ณผํ•œ ๊ฒƒ์ด๋‹ค.

์–‘๋ณ€์„ โˆฅYโˆ’Yโ€พโˆฅ2\Vert \mathbf Y - \overline{\mathbf Y} \Vert^2์œผ๋กœ ๋‚˜๋ˆ„๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

1=โˆฅYโˆ’Y^โˆฅ2โˆฅYโˆ’Yโ€พโˆฅ2+โˆฅY^โˆ’Yโ€พโˆฅ2โˆฅYโˆ’Yโ€พโˆฅ2 1 = \dfrac{\Vert \mathbf Y - \hat{\mathbf Y} \Vert^2}{\Vert \mathbf Y - \overline{\mathbf Y} \Vert^2} + \dfrac{\Vert \hat{\mathbf Y} - \overline{\mathbf Y} \Vert^2}{\Vert \mathbf Y - \overline{\mathbf Y} \Vert^2}

์ •์˜์— ๋”ฐ๋ผ์„œ 1=RSSTSS+R21 = \dfrac{\text{RSS}} {\text{TSS}} + {\mathrm R}^2๊ฐ€ ๋œ๋‹ค. ์ฆ‰,

R2=1โˆ’RSSTSS {\mathrm R}^2 = 1 - \dfrac{\text{RSS}}{\text{TSS}}

์‚ฌ์‹ค R2\textrm R^2๋Š” ๊ฐ€๋” ํšŒ๊ท€๋ถ„์„์˜ ์„ฑ๊ณผ ์ง€ํ‘œ๋กœ ๋‚จ์šฉ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ๋ณด๋ฉด col X\mathbf X ๋‚ด์— ํ‘œํ˜„๋œ Y^\hat{\mathbf Y} ๊ฐ€ Y\mathbf Y์™€ ์–ผ๋งˆ๋‚˜ ๊ฐ€๊น๊ฒŒ ์žˆ๋Š”์ง€๋ฅผ Yโ€พ\overline{\mathbf Y}๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ง€ํ‘œํ™”ํ•œ ๊ฒƒ์— ๋ถˆ๊ณผํ•˜๋‹ค.

R2{\mathrm R}^2๋Š” ํšŒ๊ท€๋ถ„์„์˜ ์„ฑ๊ณผ ์ง€ํ‘œ๋กœ ์–ด๋–ค ์˜๋ฏธ๊ฐ€ ์žˆ์„๊นŒ? ๋ถ„์„์˜ ๋ชฉํ‘œ๊ฐ€ ํšŒ๊ท€๋ถ„์„์„ ํ†ตํ•œ ์˜ˆ์ธก์ด๋ผ๋ฉด, ์ฆ‰ ์›๋ž˜ ๊ด€์ฐฐ๊ฐ’๊ณผ ์˜ˆ์ธก๋œ ๊ฐ’์ด ์–ผ๋งˆ๋‚˜ ๋–จ์–ด์ ธ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๊ฐ€ ์ค‘์š”ํ•˜๋‹ค๋ฉด R2\textrm R^2๋Š” ์˜๋ฏธ๋ฅผ ์ง€๋‹ ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋ฉด, ๋ถ„์„์˜ ๋ชฉํ‘œ๊ฐ€ ํšŒ๊ท€๋ถ„์„์„ ํ†ตํ•œ ์ด๋Ÿฌํ•œ ์ข…๋ฅ˜์˜ ์˜ˆ์ธก์ด ์•„๋‹ˆ๋ผ ํŠน์ •ํ•œ regressor์˜ ์ธ๊ณผ๊ด€๊ณ„์— ๊ด€ํ•œ ์ถ”์ •์ด๋ผ๋ฉด, R2\textrm R^2๋Š” ๊ฑฐ์˜ ๋ฌด์‹œํ•ด๋„ ์ข‹๋‹ค.

์•„์šธ๋Ÿฌ ํšŒ๊ท€๋ถ„์„์ด๋ผ๋Š” ์ด๋ฆ„์„ ๋‹ฌ๊ณ  ์žˆ์ง€๋งŒ ์ „ํ˜•์ ์ธ ํšŒ๊ท€๋ถ„์„์˜ ๋ฐฉ๋ฒ•์„ ๋”ฐ๋ฅด์ง€ ์•Š๋Š” ๊ธฐ๋ฒ•์—์„œ R2\textrm R^2๊ฐ€ ์ •์˜๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๋„ ์žˆ๋‹ค. ์ž˜ ์•Œ๋ ค์ง„ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๊ฐ€ ์ด์— ํ•ด๋‹นํ•œ๋‹ค. ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์—์„œ ํšŒ๊ท€ ๊ณ„์ˆ˜์˜ ์ถ”์ •์€ ์—ฌ๊ธฐ์„œ ๋ดค๋“ฏ์ด ๊ด€์ฐฐ๊ณผ col X\mathbf X ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ์‹์ด ์•„๋‹ˆ๋ผ ์šฐ๋„(likelihood)๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ์‹์„ ๋”ฐ๋ฅธ๋‹ค. ๋”ฐ๋ผ์„œ ๋ฒกํ„ฐ ๊ณต๊ฐ„์˜ ํ”ผํƒ€๊ณ ๋ผ์Šค ์ •๋ฆฌ๋ฅผ ๋”ฐ๋ฅด๋Š” R2\textrm R^2๋Š” ์ •์˜๋˜์ง€ ์•Š๋Š”๋‹ค.4

๋ค: ํšŒ๊ท€ ๋ถ„์„๊ณผ PCA๋Š” ์„œ๋กœ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅผ๊นŒ?

ํšŒ๊ท€ ๋ถ„์„๊ณผ PCA๋Š” ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅธ๊ฐ€? ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋‹ต์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๊ฑธ ๋‹ค ์†Œ๊ฐœํ•˜๊ฒ ๋‹ค๋Š” ๊ฒŒ ์•„๋‹ˆ๋‹ค. ๋‘˜์ด ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง์˜ ์‹œ์•ผ์—์„œ ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅธ์ง€๋ฅผ ์‚ดํŽด๋ณด๋Š” ๊ฒŒ ์ด ๊ธ€์˜ ๋ชฉ์ ์ด๋‹ค.5 ์ด ๊ธ€์€ ๋‘˜์„ ์–ด๋–ป๊ฒŒ ์‹คํ–‰ํ•˜๋Š”์ง€๋ฅผ ๋‹ค๋ฃจ์ง€ ์•Š๋Š”๋‹ค. ์•ž์„  PCA ๊ด€๋ จ ํฌ์ŠคํŒ…์„ ์ฝ๊ณ  ์˜ค์‹œ๋ฉด ์ดํ•ด์— ๋„์›€์ด ๋  ๊ฒƒ์ด๋‹ค.

๊ณตํ†ต์ 

Feature

์ผ๋‹จ ๋‘˜ ๋‹ค kk ๊ฐœ์˜ feature ๋น„์Šทํ•œ ๊ฒƒ์„ ์ง€๋‹Œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  nn ๊ฐœ์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ์ œ์‹œ๋œ๋‹ค.

์ฐจ์› ์ถ•์†Œ

ํ”ํžˆ PCA๋ฅผ ์ฐจ์›์ถ•์†Œ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ์ดํ•ดํ•˜๋Š”๋ฐ, ์ด ๋ง์€ ๋งž๋‹ค. ๋ฐ˜๋Œ€๋กœ ํšŒ๊ท€๋ถ„์„์€ ์ด์™€ ๋‹ค๋ฅด๋‹ค๊ณ  ์ดํ•ดํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์€๋ฐ ์ด ๋ง์€ ํ‹€๋ฆฌ๋‹ค. ํšŒ๊ท€ ๋ถ„์„๋„ ์–ด๋–ป๊ฒŒ ๋ณด๋ฉด '์ฐจ์› ์ถ•์†Œโ€™๋‹ค. ํšŒ๊ท€ ๋ถ„์„์—์„œ target ๋ณ€์ˆ˜๋Š” nn ์ฐจ์› ๊ณต๊ฐ„ ์œ„์˜ ์ฃผ์–ด์ง„ ํ•œ ์ ์ด๋‹ค. ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ์ด ํ•œ ์ ์„ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ๋” ๋‚ฎ์€ ์ฐจ์›์˜ ์–ด๋–ค ์ง€์ ์„ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฐ ์ ์—์„œ ๋ณธ๋‹ค๋ฉด ํšŒ๊ท€ ๋ถ„์„ ์—ญ์‹œ ์ฐจ์› ์ถ•์†Œ์˜ ํ•œ ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ๋ด์•ผ ํ•  ๊ฒƒ์ด๋‹ค.

๊ทน์†Œํ™”

PCA์—์„œ '๋ถ„์‚ฐ ์ตœ๋Œ€ํ™”โ€™์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ๊ณผ์ •์„ ์ƒ๋žตํ•˜๋‹ค๋ณด๋ฉด, PCA๋ฅผ ๋ณ„๋„์˜ ์–ด๋–ค ๋ฐฉ๋ฒ•์œผ๋กœ ์ธ์‹ํ•˜๊ณค ํ•œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์•ž์„  ํฌ์ŠคํŒ…์—์„œ ๋ณด์•˜๋“ฏ์ด '๋ถ„์‚ฐ ์ตœ๋Œ€ํ™”โ€™๋ž€ ์‚ฌ์‹ค ํ”ผ์ฒ˜ ๋ฒกํ„ฐ์™€ ์ด๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•œ ์–ด๋–ค ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ณผ์ •์—์„œ ๋„์ถœ๋œ ๊ฒฐ๊ณผ๋‹ค. ์ด๋Ÿฐ ์ ์—์„œ ๋ณธ๋‹ค๋ฉด, ํšŒ๊ท€ ๋ถ„์„์ด๋“  PCA๋Š” MSE(Mean Square Error)๋ฅผ ์ตœ์†Œํ™”ํ•œ๋‹ค๋Š” ์ ์—์„œ๋Š” ๋ชฉ์  ํ•จ์ˆ˜์˜ ์œ ํ˜•์€ ๋™์ผํ•˜๋‹ค.

์ฐจ์ด์ 

Supervised or Unsupervised?

ํšŒ๊ท€ ๋ถ„์„๊ณผ PCA๋ฅผ ์ง€๋„ ํ•™์Šต(supervised learning), ๋น„์ง€๋„ ํ•™์Šต(unsupervised learning)์œผ๋กœ ๊ตฌ๋ถ„ํ•  ์ˆ˜๋Š” ์—†๋‹ค. ๋‹ค๋งŒ ์ด ๊ตฌ๋ถ„๊ณผ ์–ด๋Š ์ •๋„ ๋น„์Šทํ•œ ๋ถ€๋ถ„์ด ์žˆ๋‹ค. ํšŒ๊ท€ ๋ถ„์„์€ target์ด ์žˆ๋‹ค. ์ด ํƒ€๊ฒŸ๊ณผ์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” feature ๊ณต๊ฐ„์˜ ์–ด๋–ค ์œ„์น˜๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด๋‹ค. ๋ฐ˜๋ฉด, PCA์—๋Š” target์ด ์—†๋‹ค. kk ๊ฐœ์˜ feature๋ฅผ ์ตœ์†Œ ๊ฑฐ๋ฆฌ๋กœ ํˆฌ์˜ํ•  ์ˆ˜ ์žˆ๋Š” ์Šคํฌ๋ฆฐ ๋ฒกํ„ฐ๋ฅผ ์ฐพ๋Š”๊ฒŒ ๋ชฉ์ ์ด๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•ด์„œ PCA๋Š” target ์—†์ด ๋ฒกํ„ฐ์˜ ๊ฑฐ๋ฆฌ๊ฐ€ 1์ธ ์ž„์˜์˜ ํ”„๋กœ์ ์…˜ ๋ฒกํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด๋‹ค.

Jun Sok Huhh | ๐Ÿ lostineconomics.com


  1. ํ”ํžˆ Y\mathbf Y๋ฅผ ์ข…์†๋ณ€์ˆ˜, X\mathbf X๋ฅผ ๋…๋ฆฝ๋ณ€์ˆ˜๋กœ ๋ถ€๋ฅด๊ธฐ๋„ ํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์ด๋ฆ„์—๋Š” ํ˜ผ๋ž€์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” regressor, regressand๋ผ๋Š” ์˜์–ด ํ‘œํ˜„์„ ๊ทธ๋Œ€๋กœ ์“ฐ๋„๋ก ํ•˜๊ฒ ๋‹ค. โ†ฉ๏ธŽ

  2. ์ด๋ฅผ ์„ ํ˜• ๋Œ€์ˆ˜์—์„œ ๋ฐฐ์šด ์—ฐ๋ฆฝ๋ฐฉ์ •์‹์„ ํ‘ธ๋Š” ๋ฌธ์ œ๋กœ ์ดํ•ดํ•ด๋„ ์ข‹๊ฒ ๋‹ค. Ax=b(bโ‰ 0)A x = b(b \neq \boldsymbol{0})๋ผ๊ณ  ํ•˜์ž. nn ๊ฐœ์˜ ๋ฏธ์ง€์ˆ˜๊ฐ€ ์œ ์ผํ•œ ํ•ด๋ฅผ ์ง€๋‹ˆ๊ณ  ์œ„ํ•ด์„œ๋Š” rank(A)=n{\rm rank}(A) = n์ด์–ด์•ผ ํ•œ๋‹ค. ์ฆ‰ ์„œ๋กœ ๋…๋ฆฝ์ธ ์‹์ด nn ๊ฐœ ์ฃผ์–ด์ ธ์•ผ ๊ณ ์œ ์˜ ํ•ด xx๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ํšŒ๊ท€๋ถ„์„์€ ์‹์ด k(<n)k(<n) ๊ฐœ๋งŒ ์ฃผ์–ด์ง„ ์ƒํ™ฉ์ด๋‹ค. โ†ฉ๏ธŽ

  3. ์™œ ๊ทธ๋Ÿฐ์ง€ ์ž ์‹œ ๋”ฐ์ ธ๋ณด์ž. ์•ž์„œ ๋ณด์•˜๋“ฏ์ด regressor์˜ ํ‰๋ฉด์€ ฮฑ1x1+โ‹ฏ+ฮฑkxk\alpha_1 x_1 + \dotsb + \alpha_k x_k ์™€ ๊ฐ™์€ ํ˜•ํƒœ์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์„ ํ†ตํ•ด ๋‹ฌ์„ฑ๋œ๋‹ค. ์ฆ‰, ฮฑi\alpha_i๋ฅผ ์–ด๋–ป๊ฒŒ ์žก๋Š”์ง€์— ๋”ฐ๋ผ์„œ kk ์ฐจ์›๊นŒ์ง€ ์ด ์‹์„ ํ†ตํ•ด์„œ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ Yโ€พ\overline{\mathbf Y}๋Š” 1์ฐจ์› ์ฆ‰, ๋ชจ๋“  ์›์†Œ๊ฐ€ yโ€พ\overline{y}, ์ฆ‰ yy์˜ ํ‰๊ท ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฅผ ๋งŒ์กฑํ•˜๋Š” ฮฑi\alpha_i(for i=1,โ€ฆ,ki = 1, \dotsc, k)๋ฅผ col X{\rm col}~{\mathbf X}์—์„œ ๋ฐ˜๋“œ์‹œ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค. โ†ฉ๏ธŽ

  4. ๊ถ์—ฌ์ง€์ฑ…์œผ๋กœ ์ด์™€ ์œ ์‚ฌํ•œ ์ง€ํ‘œ๋ฅผ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜๋Š” ์žˆ๊ฒ ๋‹ค. ์—ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ•˜๋ผ. โ†ฉ๏ธŽ

  5. ๋” ์ž์„ธํ•œ ๋‚ด์šฉ์€ ์—ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ•˜์ž. โ†ฉ๏ธŽ