Five (Deadly!) Questions on Regression and PCA

2019-12-30
Jun Sok Huhh | ๐Ÿ lostineconomics.com

Question One

PCA๋Š” Regression๊ณผ ๋‹ค๋ฅธ๊ฐ€์š”?

์ข‹์€ ์งˆ๋ฌธ์ด๋‹ค. ์•„์˜ˆ ๋‘˜์„ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ๋ณด๋ฉด ์†ํŽธํ•˜๊ฒ ์ง€๋งŒ ํ•œ๋ฒˆ ์ฏค ์ด ์งˆ๋ฌธ์„ ๊ณ ๋ฏผํ•ด๋ดค์„ ๊ฒƒ์ด๋‹ค. ๋‹ต์€ ๊ฐ™๊ธฐ๋„ ํ•˜๊ณ  ๋‹ค๋ฅด๊ธฐ๋„ ํ•˜๋‹ค, ๋˜๊ฒ ๋‹ค.

In common

์šฐ์„  ๋‘˜ ๋‹ค MSE(Mean Squared Error)๋ฅผ ๊ทน์†Œํ™”ํ•˜๋Š” ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ์ง€๋‹ˆ๊ณ  ์žˆ๋‹ค. ์ฐจ๋ก€๋กœ ์‚ดํŽด๋ณด์ž.

Regression

ํšŒ๊ท€๋ถ„์„์˜ ๋ชฉ์ ํ•จ์ˆ˜์™€ ๊ทน์†Œํ™”๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

minโกฮฒ(yโˆ’Xฮฒ)T(yโˆ’Xฮฒ).\min_{\beta} (y - X \beta)^T (y - X \beta).

์—ฌ๊ธฐ์„œ ๊ฐ๊ฐ ํ–‰๋ ฌ ๋ฐ ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ํ™•์ธํ•ด๋ณด์ž.

๊ฐœ๋…์ ์œผ๋กœ ๋งํ•˜๋ฉด regression์€ ์ผ์ข…์˜ ๋ชฉํ‘œ ๋ณ€์ˆ˜์ธ yy์™€ ์ด๋ฅผ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•œ ์„ค๋ช… ๋ณ€์ˆ˜์ธ regressors๋กœ ๊ตฌ์„ฑ๋œ ๋ฒกํ„ฐ ๊ณต๊ฐ„์˜ ํ•œ ์  ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ฮฒ\beta๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ๋ณด๋ฉด ์ด ์ตœ์†Œํ™”๋Š” nn ์ฐจ์›์ธ ํ•œ ์ ์—์„œ yy์—์„œ kk ์ฐจ์›์ธ XX๋กœ ๊ตฌ์„ฑ๋œ ์ดˆํ‰๋ฉด์œผ๋กœ ์ˆ˜์„ ์˜ ๋ฐœ์„ ๋‚ด๋ฆด ๊ฒฝ์šฐ ๋‹ฌ์„ฑ๋œ๋‹ค.

Xฮฒ=[x1 โ€ฆ xk][ฮฒ1โ‹ฎฮฒk]=ฮฒ1x1+โ‹ฏ+ฮฒkxk, X \beta = \begin{bmatrix} x^1 ~ \dotsc ~ x^k \end{bmatrix} \begin{bmatrix} \beta_1 \\ \vdots \\ \beta_k \end{bmatrix} = \beta_1 x^1 + \dotsb + \beta_k x^k,

where xj=[x1j,โ€ฆ,xnj]Tx^j = [x_1^j, \dotsc, x_n^j]^T for j=1,โ€ฆ,kj = 1, \dotsc, k. ์ฆ‰ xjโˆˆRnx^j \in {\mathbb R}^n ๋ฒกํ„ฐ kk ๊ฐœ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฒกํ„ฐ ๊ณต๊ฐ„, ์ฆ‰ XX์˜ ์—ด ๊ณต๊ฐ„(column space)์œผ๋กœ yy๋ฅผ ํˆฌ์˜(project)ํ•œ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. ์ด ์—ด ๊ณต๊ฐ„์€ nn ์ฐจ์› ์•ˆ์— ์†ํ•œ kk ์ฐจ์›์˜ ์ดˆํ‰๋ฉด์ด๋ผ๋Š” ์ ์„ ๊ธฐ์–ตํ•ด๋‘์ž. ์•„๋ž˜ ๊ทธ๋ฆผ์„ ์ฐธ๊ณ ํ•˜์ž.1

ํ•œํŽธ ์œ„์˜ ์‹์„ ์—ฐ๋ฆฝ๋ฐฉ์ •์‹์˜ ๊ด€์ ์—์„œ ๋ฐ”๋ผ๋ณด์ž.

Xฮฒ=y X \beta = y

Xโˆˆnร—kX \in {\mathbb n \times k}์˜ ๊ฒฝ์šฐ n>kn > k์ด๋ฏ€๋กœ, ์œ„ ์—ฐ๋ฆฝ๋ฐฉ์ •์‹์˜ ํ•ด ฮฒ\beta๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์กด์žฌํ•  ์ˆ˜ ์—†๋‹ค. ๋”ฐ๋ผ์„œ ํ•ด ๋Œ€์‹ ์— MSE๋ฅผ ๊ทน์†Œํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์žก์•˜๋‹ค๊ณ  ๋ณด๋ฉด ์ข‹๋‹ค.

PCA

ํ•œํŽธ, PCA์˜ ์ตœ์†Œํ™”๋Š” ๋‹ค์Œ์˜ ๋ชฉ์  ํ•จ์ˆ˜๋กœ ๊ตฌํ˜„๋œ๋‹ค.

minโกw1nโˆ‘i=1n(โˆฅxiโˆฅ2โˆ’2(wโ‹…xi)2+1), \begin{aligned} \min_{w} & \dfrac{1}{n}\sum_{i=1}^n \left( \Vert x_i \Vert^2 - 2(w \cdot x_i)^2 + 1 \right), \end{aligned}

๋ชฉ์  ํ•จ์ˆ˜์˜ ๊ด„ํ˜ธ ๋ถ€๋ถ„์€ ์•„๋ž˜์™€ ๊ฐ™์ด ๋„์ถœ๋œ๋‹ค.

โˆฅxiโˆ’(wโ‹…xi)wโˆฅ2=โˆฅxiโˆฅ2โˆ’2(wโ‹…xi)(wโ‹…xi)+โˆฅwโˆฅ2=โˆฅxiโˆฅ2โˆ’2(wโ‹…xi)2+1 \begin{aligned} \Vert x_i - (w \cdot x_i) w \Vert^2 & = \Vert x_i \Vert^2 - 2 (w \cdot x_i)(w \cdot x_i) + \Vert w \Vert^2 \\ & = \Vert x_i \Vert^2 - 2(w \cdot x_i)^2 + 1 \end{aligned}

์—ญ์‹œ ๊ฐœ๋…์ ์œผ๋กœ ๋งํ•˜๋ฉด PCA๋Š” kk ์ฐจ์›์˜ ๋ฒกํ„ฐ๊ฐ€ nn ๊ฐœ ์žˆ์„ ๋•Œ, nn ๊ฐœ์˜ ๋ฒกํ„ฐ๋“ค์„ ๊ธธ์ด 1์˜ ์œ ๋‹› ๋ฒกํ„ฐ w(โˆˆRk)w( \in {\mathbb R}^{k})๋กœ ํ”„๋กœ์ ์…˜ํ•  ๋•Œ, ๊ทธ ๊ฑฐ๋ฆฌ ์ œ๊ณฑ์˜ ํ•ฉ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ww๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค.

Difference

MSE๋ฅผ ๊ทน์†Œํ™”ํ•œ๋‹ค๋Š” ์ ์€ ๊ฐ™์ง€๋งŒ, ๋ชฉ์  ํ•จ์ˆ˜์˜ ํ˜•ํƒœ์™€ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ์„ ํƒ ๋ณ€์ˆ˜๊ฐ€ ๋‹ค๋ฅด๋‹ค.

Objective function

ํšŒ๊ท€ ๋ถ„์„๋ถ€ํ„ฐ ๋ณด์ž. ํšŒ๊ท€ ๋ถ„์„์€ nn ์ฐจ์›์˜ yy๋ฅผ kk ์ฐจ์›์˜ ์ปฌ๋Ÿผ ์ŠคํŽ˜์ด์Šค๋ฅผ ์ง€๋‹Œ XX์˜ ์ปฌ๋Ÿผ ์ŠคํŽ˜์ด์Šค๋กœ ํ”„๋กœ์ ์…˜ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋•Œ ํ”„๋กœ์ ์…˜๋˜๋Š” ์œ„์น˜๊ฐ€ ๊ณง MSE๋ฅผ ๊ทน์†Œํ™”ํ•ด์ฃผ๋Š” ๊ฐ€์ค‘์น˜, kk ์ฐจ์›์˜ ฮฒ\beta๊ฐ€ ๋œ๋‹ค. ์œ„ ๊ทธ๋ฆผ์—์„œ ๋ณด๋“ฏ์ด yy์—์„œ X ํ‰๋ฉด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ํ‰๋ฉด์œผ๋กœ ์ˆ˜์„ ์˜ ๋ฐœ์„ ๋‚ด๋ฆฌ๋Š” ๊ฒƒ ์ด์™ธ์—๋Š” ์—†๋‹ค. ์ฆ‰ ํ”„๋กœ์ ์…˜ ์ž์ฒด๊ฐ€ ๊ฑฐ๋ฆฌ ์ตœ์†Œํ™”๊ฐ€ ๋œ๋‹ค.

์ด์ œ PCA๋ฅผ ๋ณด์ž. PCA๋Š” XโˆˆRnร—kX \in {\mathbb R}^{n \times k}๊ฐ€ ์žˆ์„ ๋•Œ ์ด๋ฅผ ํˆฌ์˜ํ•  ๊ธธ์ด 1์˜ ๋˜๋‹ค๋ฅธ ๋ฒกํ„ฐ w(โˆˆRk)w(\in {\mathbb R}^{k})๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. PCA์˜ ๊ฒฝ์šฐ ํƒ€๊ฒŸ ๋ณ€์ˆ˜ ๊ฐ™์€ ๊ฒƒ์ด ์—†๋‹ค. ๊ทธ์ € kk ์˜ ๋ฒกํ„ฐ๊ฐ€ nn ๊ฐœ ์žˆ์„ ๋•Œ ์ด๋“ค์„ ํˆฌ์˜ํ•œ ๊ฑฐ๋ฆฌ๊ฐ€ ์ตœ์†Œํ™”๋˜๋„๋ก ์œ ๋‹› ๋ฒกํ„ฐ ww๋ฅผ ์žก๋Š”๋‹ค.

Question Two

PCA์—์„œ ์•„์ด๊ฒ๋ฐธ๋ฅ˜์™€ ์•„์ด๊ฒ๋ฒกํ„ฐ๋Š” ์–ด๋–ป๊ฒŒ ๋“ฑ์žฅํ•˜๊ฒŒ ๋˜๋‚˜์š”?

์ž์„ธํ•œ ์„ค๋ช…์€ ์—ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ•˜๋ฉด ๋œ๋‹ค. ํ•ต์‹ฌ๋งŒ ์š”์•ฝํ•ด๋ณด์ž.

๊ทน๋Œ€ํ™” ๋ฌธ์ œ์—์„œ ๋„์ถœ๋˜๋Š” ๋ผ๊ทธ๋ž‘์ง€ ์Šน์ˆ˜ ฮป\lambda๋Š” ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ๋œ๋‹ค. ์•„์ด๊ฒ๋ฐธ๋ฅ˜ kk ๊ฐœ๊ฐ€ ์žˆ์„ ๋•Œ ์ด๋ฅผ ํฐ ์ˆœ์„œ๋Œ€๋กœ ๋‚˜์—ดํ–ˆ๋‹ค๊ณ  ํ•˜์ž. ์ฆ‰ ฮป1>ฮป2>โ€ฆ>ฮปk\lambda_1 > \lambda_2 > \dotsc > \lambda_k. ์ด์ œ ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ํฐ ์ˆœ์„œ๋Œ€๋กœ ์•„์ด๊ฒ๋ฒกํ„ฐ๋ฅผ ์žก์œผ๋ฉด MSE๊ฐ€ ์ž‘์€ ์ˆœ์„œ๋Œ€๋กœ ww๋ฅผ ํƒํ•˜๋Š” ๊ฒƒ์ด ๋œ๋‹ค.

์—ฌ๊ธฐ์„œ PCA๊ฐ€ MSE๋ฅผ ๊ทน์†Œํ™”ํ•˜๋Š” ๋ฌธ์ œ์—์„œ ์ถœ๋ฐœํ–ˆ์ง€๋งŒ ์™œ ์ฐจ์› ์ถ•์†Œ์˜ ๋ฌธ์ œ๋กœ ๋ณ€ํ–ˆ๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค. MSE ์ตœ์†Œํ™”๋ผ๋Š” ๋ชฉ์  ํ•จ์ˆ˜์—์„œ ๋ณผ ๋•Œ ์ด๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” kk ๊ฐœ์˜ ์•„์ด๊ฒ๋ฒกํ„ฐ ์ค‘์—์„œ ์ž„์˜๋กœ l(<k)l(<k) ๊ฐœ๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค.

Eigenvectors in PCA

PCA ๋ถ„์„์—์„œ ๋“ฑ์žฅํ•˜๋Š” ์•„์ด๊ฒ๋ฒกํ„ฐ๋Š” ๋„ˆ๋ฌด ์ข‹์€ ํŠน์ง•์„ ์ง€๋‹ˆ๊ณ  ์žˆ๋‹ค. ์šฐ์„ , ํ•ด๋‹น ์•„์ด๊ฒ๋ฒกํ„ฐ๋Š” ์„œ๋กœ ์ง๊ตํ•œ๋‹ค. ์ฆ‰,

wiโ‹…wj={1for i=j0for iโ‰ j w^i \cdot w^j = \begin{cases} 1 & \text{for $i = j$} \\ 0 & \text{for $i \neq j$} \end{cases}

์•„๋งˆ๋„ PCA๋ฅผ 2์ฐจ์›์— ๋„ํ•ดํ•  ๊ฒฝ์šฐ ์•„๋ž˜์™€ ๊ฐ™์€ ๊ทธ๋ฆผ์„ ๋งŽ์ด ๋ดค์„ ๊ฒƒ์ด๋‹ค.

1๊ฐœ์˜ ๊ด€์ฐฐ์ด 2์ฐจ์› ๋ฒกํ„ฐ์ด๋ฏ€๋กœ ์ด ์ž๋ฃŒ์—์„œ๋Š” ๋‘ ๊ฐœ์˜ ์ฃผ์„ฑ๋ถ„์ด ๋‚˜์˜ฌ ๊ฒƒ์ด๋‹ค. ์ด ๋‘ ๊ฐœ์˜ ์ฃผ์„ฑ๋ถ„์€ ๋ฐ˜๋“œ์‹œ ์ง๊ต(orthogonal)ํ•ด์•ผ ํ• ๊นŒ? ๊ผญ ๊ทธ๋ ‡๋‹ค๋Š” ์žฅ๋‹ด์€ ์—†๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์•ž์„œ ์‚ดํŽด๋ณธ MSE์˜ ๊ทน์†Œํ™” ๊ณผ์ •์—์„œ ๋„์ถœ๋˜๋Š” ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ์„œ ์ฃผ์„ฑ๋ถ„๋“ค๋ผ๋ฆฌ๋Š” ๋ฐ˜๋“œ์‹œ ์ง๊ตํ•ด์•ผ ํ•œ๋‹ค. ์ด๋ฅธ๋ฐ” '์ฃผ์„ฑ๋ถ„โ€™์ด ๋Œ€์นญ ํ–‰๋ ฌ(๋ถ„์‚ฐ-๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ)์—์„œ ๋‚˜์˜จ ์•„์ด๊ฒ๋ฐธ๋ฅ˜์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋ฆผ์—์„œ ๋ณด๋“ฏ์ด ํ•˜๋‚˜์˜ ์ฃผ์„ฑ๋ถ„(๋ถ๋™ํ–ฅ)์ด ๋‹ค๋ฅธ ์ฃผ์„ฑ๋ถ„(๋ถ์„œํ–ฅ)๋ณด๋‹ค ํฌ๋‹ค. ๋งŒ์ผ ์—ฌ๊ธฐ์„œ ์ฐจ์›์ถ•์†Œ๋ฅผ ํ•œ๋‹ค๋ฉด ์ฒซ๋ฒˆ์งธ ์ฃผ์„ฑ๋ถ„์„ ํƒํ•˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ nn ๊ฐœ์˜ ์ฃผ์„ฑ๋ถ„์ด ์žˆ์„ ๋•Œ ์ด์ค‘ kk ๊ฐœ๋ฅผ ํƒํ•œ๋‹ค๋ฉด, ๋ถ„์‚ฐ์ด ํฐ ์ˆœ์„œ๋Œ€๋กœ kk๊ฐœ๋ฅผ ํƒํ•˜๋ฉด ๋œ๋‹ค.

Sub-question

PCA์—์„œ ์ฐจ์› ์ถ•์†Œ์˜ ์˜๋ฏธ๋ฅผ ๋ณด๋‹ค ๊ตฌ์ฒด์ ์œผ๋กœ ์„ค๋ช…ํ•ด์ฃผ์‹ค ์ˆ˜ ์žˆ์„๊นŒ์š”?

์ด๋ ‡๊ฒŒ ๋ณด์ž. ์•ž์„œ ๋ณด์•˜๋˜ ๋Œ€๋กœ KaTeX parse error: Expected '}', got 'EOF' at end of input: โ€ฆn {\mathbb R}^{๋Š” KaTeX parse error: Expected 'EOF', got '}' at position 12: (n \times k}ฬฒ ํ–‰๋ ฌ๋‹ค. ์ด๋ฅผ ํ–‰ ๋ฒกํ„ฐ๋กœ ์ž˜๋ผ์„œ ๋ณด์ž. ์ฆ‰,

X=[x1โ‹ฎxn], where xi=[x1, โ€ฆ ,xk]. X = \begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix},~\text{where~} x_i = [x^1,~\dotsc~, x^k].

์ฆ‰. ํ–‰ ๋ฒกํ„ฐ๋Š” kk ๊ฐœ์˜ ํ”ผ์ฒ˜๋ฅผ ์ง€๋‹Œ ํ•˜๋‚˜์˜ ๊ด€์ฐฐ์ด ๋œ๋‹ค. ์ด์ œ ์•ž์„œ ์šฐ๋ฆฌ๊ฐ€ ๊ตฌํ•œ ์•„์ด๊ฒ๋ฒกํ„ฐ๋ฅผ ์—ฌ๊ธฐ์— ์ ์šฉํ•ด๋ณด์ž. ํŽธ์˜์ƒ 1๊ฐœ๋กœ ์ฐจ์› ์ถ•์†Œ๋ฅผ ํ•œ ๊ฒฝ์šฐ๋ฅผ ๊ฐ€์ •ํ•˜๊ฒ ๋‹ค. ์ด๋•Œ ์ฐจ์› ์ถ•์†Œ์— ํ™œ์šฉ๋˜๋Š” ์•„์ด๊ฒ๋ฒกํ„ฐ๋Š” ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ๊ฐ€์žฅ ํฐ ๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” ๋ฒกํ„ฐ w1w^1๋ผ๊ณ  ํ•˜์ž. w1โˆˆRkw^1 \in {\mathbb R}^{k}์ด๋‹ค. ์ด์ œ,

Xw1=PC1nร—1 X w^1 = \underset{n \times 1}{\rm{PC}^1}

์ฒซ๋ฒˆ์งธ PC๋กœ ๋ณ€ํ™˜๋œ XX๋Š” kk ๊ฐœ์˜ ํ”ผ์ฒ˜์—์„œ 1๊ฐœ์˜ ํ”ผ์ฒ˜๋กœ ๋ณ€ํ™˜๋œ๋‹ค. ๋งŒ์ผ ์ฃผ์„ฑ๋ถ„(PC)์œผ๋กœ ll ๊ฐœ๋ฅผ ํƒํ–ˆ๋‹ค๋ฉด ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ํฐ ์ˆœ์„œ๋Œ€๋กœ ์œ„์™€ ๊ฐ™์€ ๊ณผ์ •์„ ๊ฑฐ์น˜๋ฉด ๋˜๊ฒ ๋‹ค. ๊ฐ ์•„์ด๊ฒ๋ฐธ๋ฅ˜์™€ ์•„์ด๊ฒ๋ฒกํ„ฐ์˜ ์Œ์ด wjw^j, ฮปj\lambda^j๋ผ๊ณ  ํ•  ๋•Œ,

Xw1=PC1 โ‹ฎXwl=PCl, where ฮป1>โ€ฆ>ฮปl \begin{aligned} X w^1 & ={\rm PC}^1 \\ &~\vdots \\ X w^l & ={\rm PC}^l,~\text{where $\lambda^1 > \dotsc > \lambda^l$. } \end{aligned}

๊ทธ๋ฆฌ๊ณ  ์ด PC ๊ฐ’๋“ค์„ ๋ชจ์œผ๋ฉด kk ๊ฐœ์—์„œ ll ๊ฐœ๋กœ ์ฐจ์›์ด ์ถ•์†Œ๋œ ํ–‰๋ ฌ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

[PC1, โ€ฆ ,PCl]nร—l \underset{n \times l}{ [{\rm PC}^1,~\dotsc~,{\rm PC}^l] }

Question Three

๊ทธ๋ฆผ์œผ๋กœ ๋ณด๋‹ค ์‰ฝ๊ฒŒ ๋ณผ ์ˆ˜๋Š” ์—†์„๊นŒ์š”?

๊ทธ๋ฆผ์œผ๋กœ ๊ฐ„๋‹จํ•˜๊ฒŒ ์‚ดํŽด๋ณด์ž.2

๋จผ์ € ํšŒ๊ท€ ๋ถ„์„์ด๋‹ค. yy๋ฅผ xx์— ๋Œ€ํ•ด์„œ ํšŒ๊ท€(yโˆผxy \sim x)ํ•˜๋Š” ๊ฒฝ์šฐ์™€ xx๋ฅผ yy์— ๋Œ€ํ•ด์„œ ํšŒ๊ท€(xโˆผyx \sim y)ํ•˜๋Š” ๊ฒฝ์šฐ๋Š” ๋‹ค๋ฅด๋‹ค.

PCA๋Š” ๊ทธ๋ฆผ์—์„œ ๋ณด๋“ฏ์ด ๊ด€์ฐฐ์—์„œ ์ž„์˜์˜ ๋ฒกํ„ฐ w=(w1,w2)w = (w_1, w_2)๋กœ ํ”„๋กœ์ ์…˜ํ•œ๋‹ค. ์ฆ‰, ๊ทธ๋ฆผ์—์„œ ๋ถ„ํ™์ƒ‰์ด ๋‚˜ํƒ€๋‚ด๋Š” ๋ฐ”์™€ ๊ฐ™๋‹ค.

Question Four

ํ•˜๋‚˜๋Š” ์ง€๋„ ํ•™์Šต, ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๋น„์ง€๋„ ํ•™์Šต์œผ๋กœ ์ดํ•ดํ•˜๋ฉด ๋ ๊นŒ์š”?

์–ผ์ถ” ๋งž๋Š” ์ด์•ผ๊ธฐ๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ๊ธฐ๊ณ„ ํ•™์Šต์— ์กฐ์˜ˆ๊ฐ€ ์—†์–ด์„œ ์ž์‹ ์žˆ๊ฒŒ ๋‹ตํ•˜๊ธฐ๋Š” ํž˜๋“ค๋‹ค. ๋‹ค๋งŒ ํšŒ๊ท€ ๋ถ„์„์ด ์ผ์ข…์˜ ์ •๋‹ต์ง€(yy)๋ฅผ ๊ฐ–๊ณ  ์žˆ๋Š” ํ˜•ํƒœ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ง€๋„ ํ•™์Šต์ด ๋  ๊ฒƒ์ด๊ณ  PCA์˜ ๊ฒฝ์šฐ ์ •๋‹ต์ง€ ์—†์ด ๊ด€์ฐฐ ์ „์ฒด๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋น„์ง€๋„ ํ•™์Šต์œผ๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ๊ฒ ๋‹ค.

Question Five

ํšŒ๊ท€ ๋ถ„์„๊ณผ PCA๋ฅผ ์„ž์„ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์€ ์—†๋‚˜์š”?

์™œ ์—†๊ฒ ๋Š”๊ฐ€! ์ด๋ฅธ๋ฐ” PCA ํšŒ๊ท€ ๋ถ„์„์ด๋ผ๋Š” ๊ฒŒ ์žˆ๋‹ค. ์ง€๊ธˆ๊นŒ์ง€ ์ž˜ ๋”ฐ๋ผ์™”๋‹ค๋ฉด PCA ํšŒ๊ท€ ๋ถ„์„์ด ์–ด๋–ค ํ˜•ํƒœ๊ฐ€ ๋ ์ง€ ์‰ฝ๊ฒŒ ์ง์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด๋Ÿฐ ํ๋ฆ„์œผ๋กœ ์ง„ํ–‰๋˜๋Š” ๊ฒƒ์ด PCA ํšŒ๊ท€๋‹ค.

๊ทธ๋Ÿฐ๋ฐ PCA ํšŒ๊ท€๋Š” ๊ทธ๋‹ค์ง€ ๋งŽ์ด ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š”๋‹ค. ์™œ ๊ทธ๋Ÿด๊นŒ? ๋ณดํ†ต ๊ธฐ๊ณ„ ํ•™์Šต์—์„œ๋Š” ํšŒ๊ท€ ๋ถ„์„์„ ์˜ˆ์ธก(prediction)์˜ ํ•œ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ ์ดํ•ดํ•˜๊ณค ํ•œ๋‹ค. ํšŒ๊ท€ ๋ถ„์„์€ ์„ ํ˜•์ด๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์‹ค ์—ฌํƒ€์˜ ๋น„์„ ํ˜• ๊ธฐ๊ณ„ ํ•™์Šต ๋ฐฉ๋ฒ•์— ๋น„ํ•ด์„œ ์˜ˆ์ธก ๊ธฐ๋ฒ•์œผ๋กœ์„œ๋Š” ์›์‹œ์ ์ธ ๋ฐฉ๋ฒ•์ด๋‹ค. ํ•˜์ง€๋งŒ ํšŒ๊ท€ ๋ถ„์„์€ ๋†’์€ ํ•ด์„๋ ฅ์„ ์ง€๋‹ˆ๊ณ  ์žˆ๋‹ค. ๋งŒ์ผ ์ ์ ˆ XX๋ฅผ ์„ ์ •ํ•  ์ˆ˜ ํ•œ๋‹ค๋ฉด, ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ํ•ด์„ํ•˜๋Š” ํ‹€๋กœ์„œ๋„ ํ™œ์šฉํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ํšŒ๊ท€ ๋ถ„์„์—์„œ ฮฒ\beta๋ฅผ ์‚ดํ”ผ๊ณ  ์ด๋ฅผ ํ•ด์„ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์€ ๊ฒƒ์ด ์ด ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋Ÿฐ๋ฐ PCA ํšŒ๊ท€๋ฅผ ํ•  ๊ฒฝ์šฐ ์ด๋Ÿฌํ•œ ํšŒ๊ท€ ๋ถ„์„์˜ ์žฅ์ ์ด ๊ฑฐ์˜ ์‚ฌ๋ผ์ง€๊ณ  ๋งŒ๋‹ค. ์ถ•์†Œ๋œ PC๋ฅผ ํ•ด์„ํ•˜๋Š” ๊ฒƒ์ด ์‰ฝ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.






๐Ÿ lostineconomics.com | Jun Sok Huhh


  1. ๋ณด๋‹ค ์ƒ์„ธํ•œ ๋‚ด์šฉ์€ ์—ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ•˜๋ผ. โ†ฉ๏ธŽ

  2. ์—ฌ๊ธฐ์—์„œ ๊ฐ€์ ธ์™”๋‹ค. โ†ฉ๏ธŽ