* ์ฐธ๊ณ ์๋ฃ
ratsgo.github.io/machine%20learning/2017/04/02/logistic/
๋ก์ง์คํฑ ํ๊ท · ratsgo's blog
์ด๋ฒ ํฌ์คํ ์์ ๋ฒ์ฃผํ ๋ณ์๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ธ ๋ก์ง์คํฑ ํ๊ท(Logistic Regression)์ ๋ํด ์ดํด๋ณด๋ ค๊ณ ํฉ๋๋ค. ์ด๋ฒ ๊ธ์ ๊ณ ๋ ค๋ ๊ฐํ์ฑ ๊ต์๋๊ณผ ์ญ์ ๊ฐ์ ๋ํ์ ๊น์ฑ๋ฒ, ์ ์์ ๊ต์๋ ๊ฐ์๋ฅผ
ratsgo.github.io
hleecaster.com/ml-logistic-regression-concept/
๋ก์ง์คํฑํ๊ท(Logistic Regression) ์ฝ๊ฒ ์ดํดํ๊ธฐ - ์๋ฌดํผ ์๋ผ๋ฐธ
๋ณธ ํฌ์คํ ์์๋ ๋จธ์ ๋ฌ๋์์ ๋ถ๋ฅ ๋ชจ๋ธ๋ก ์ฌ์ฉ๋๋ ๋ก์ง์คํฑ ํ๊ท ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ๊ฐ๋ ์ ์ต๋ํ ์ฝ๊ฒ ์๊ฐํ๋ค. (์ด์ ์ ์ ํํ๊ท์ ๋ํ ๊ฐ๋ ์ ์๊ณ ์๋ค๋ฉด ๊ธ๋ฐฉ ์ดํดํ ์ ์๋ ์์ค์ผ๏ฟฝ๏ฟฝ
hleecaster.com
๋ก์ง์คํฑ ํ๊ท๋ ๋ฐ์ดํฐ๊ฐ ์ด๋ค ๋ฒ์ฃผ(0, 1)์ ์ํ ํ๋ฅ ์ 0๊ณผ 1์ฌ์ด์ ๊ฐ์ผ๋ก ์์ธกํ๊ณ ,
์์ธก๋ ํ๋ฅ ๊ฐ๊ณผ ์ค์ ํ threshold๊ฐ์ ์ด์ฉํ์ฌ ๋ถ๋ฅ๋ฅผ ์งํํ๋ supervised learning์ด๋ค.
์ ํ ํ๊ท์ ๋ก์ง์คํฑ ํ๊ท์ ์ฐจ์ด์ ์ ์ ํ ํ๊ท๋ ์ฐ๊ฒฐ ํจ์(link function)๋ก ํญ๋ฑ ์ฐ๊ฒฐ(identity link)๋ฅผ ์ฌ์ฉํ์ง๋ง,
๋ก์ง์คํฑ ํ๊ท๋ ๋ก์ง ์ฐ๊ฒฐ(logit link)๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ์ ๋ก์ง์คํฑ ํ๊ท๋ ๋ก์ง ์ฐ๊ฒฐ์ ์ฌ์ฉํ์๋๊ฐ?
์ด๊ฒ์ ์ดํดํ๊ธฐ ์ํด binary classification ๋ฌธ์ ์์ ์ ํ ํ๊ท๋ฅผ ์ฌ์ฉํ์ ๋ ๋ฐ์ํ๋ ๋ฌธ์ ์ ์ ๋ํด ๊ธฐ์ ํ๊ฒ ๋ค.
๋ฐ์๋ณ์๊ฐ ์ด์ง ๋ฒ์ฃผํ ๋ณ์์ธ ๊ฒฝ์ฐ ๊ฐ๊ฐ์ ๋ฒ์ฃผ๋ฅผ 0 ๋๋ 1์ด๋ผ๊ณ ํ์.
์ด๋ฌํ ์๋ฃ์ ์ ํํ๊ท๋ฅผ ์ ์ฉํ๊ฒ ๋๋ฉด Y์ ์์ธก ๊ฐ์ด 0๊ณผ 1์ ๋ฒ์ด๋ ๋ฒ์์ ๊ฐ์ด ๋์จ๋ค.
์ด๋ ๊ฒ ๋๋ฉด ์ ํํ๊ท๋ฅผ ํตํด ๋์จ ๊ฐ์ Y=1์ด๋ผ๋ ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ๋ก ํด์ํ ์ ์๊ฒ ๋๋ค.
(ํ๋ฅ axiom์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ ํ๋ฅ ์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ์ง๋๊ธฐ ๋๋ฌธ์ด๋ค.)
๋ฐ๋ผ์ logit์ฐ๊ฒฐ์ ์ฌ์ฉํ์ฌ ์์ธก๋ ๊ฐ์ด 0๊ณผ 1 ์ฌ์ด๋ก ๋์ฌ ์ ์๋๋ก ๋ง๋ค์ด์ฃผ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ํด์ ๋์จ ๊ฒ์ด ๋ก์ง์คํฑ ํ๊ท์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ์ฌ๊ธฐ์ ๋ก์ง ์ฐ๊ฒฐ์ด๋ ๋ฌด์์ธ๊ฐ?
๋ก๊ทธ-์ค์ฆ๋ฅผ ์ทจํด์ฃผ๋ ๊ฒ์ด๋ค.
๋จผ์ ์ค์ฆ๋p/(1-p) ์ผ๋ก, ์คํจ ํ๋ฅ ๋๋น ์ฑ๊ณต ํ๋ฅ ์ด๋ค.
์๋ฅผ ๋ค์ด ์ค์ฆ๊ฐ 0.8/0.2=4๋ผ๋ฉด ์คํจํ ๊ฒฝ์ฐ ๋๋น ์ฑ๊ณตํ ๊ฒฝ์ฐ๊ฐ 4๋ฐฐ ๋ง๋ค๊ณ ํด์๋๋ค.
์ด๋ ๊ฒ ๊ตฌํ ์ค์ฆ์ ๋ก๊ทธ(ln)๋ฅผ ์ทจํด์ค ๊ฒ์ด ๋ก๊ทธ-์ค์ฆ์ด๋ค.
์ด๋ ๊ฒ ํด์ logit(π)= α+β1x1+β2x2+β3x3+…+βnxn ๊ณ์ฐ์ ํตํด Y=1 ๋ฒ์ฃผ์ ์ํ ํ๋ฅ , ์ฆ π ๋ฅผ ๊ตฌํ๋ค.
๊ทธ ๋ค์ ์ด ํ๋ฅ (π) ์ ์ด์ฉํ์ฌ ์ต์ข ์์ธก label์ ๊ฒฐ์ ํด์ผ ํ๋ค.
ํ๋ฅ ์ด threshold๊ฐ ์ด์์ด๋ฉด 1๋ก, ๋ฏธ๋ง์ด๋ฉด 0์ผ๋ก ์ต์ข ์์ธกํ๋๋ฐ, ์ด ๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์๋ threshold๋ก 0.5๋ฅผ ์ฌ์ฉํ๋ค.
ํ์ง๋ง ๊ฒฝ์ฐ์ ๋ฐ๋ผ threshold๊ฐ์ ์ฑ๊ณตํ๋ฅ ๊ฐ์ผ๋ก ์ค์ ํ๋ ๋ฑ ๋ค์ํ ์กฐ์ ์ด ๊ฐ๋ฅํ๋ค.
๊ทธ๋ ๋ค๋ฉด logit(π)= α+β1x1+β2x2+β3x3+…+βnxn ์์ βi ๋ฑ์ ๊ณ์๋ ์ด๋ป๊ฒ ์ถ์ ํ๋๊ฐ?
MLE ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
MLE๋ maximum likelihood estimation์ ์ฝ์๋ก, ์ฐ๋ ํจ์๋ฅผ ์ต๋ํํ๋ ๊ฐ์ผ๋ก ๋ชจ์๋ฅผ ์ถ์ ํ๋ค๋ ๋ป์ด๋ค.
์ฐ๋(likelihood)๋ ์ด๋ ํ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ ๋ ๋ฐ์ดํฐ๊ฐ ๋์ฌ ์ ๋๋ก, ๋ก์ง์คํฑ ํ๊ท๋ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ ๊ฐ์ ํ๊ณ ์ฐ๋๋ฅผ ๊ตฌํ๋ค.
๋ฒ ๋ฅด๋์ด ํ๋ฅ ๋ณ์์ ๋ํ ์ฐ๋ ํจ์๋
์ธ๋ฐ, ๊ณ์ฐ์ ํธ์์ฑ์ ์ํด log likelihood ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
(log ํจ์๋ ๋จ์กฐ ์ฆ๊ฐ ํจ์์ด๋ฏ๋ก, likelihood ๋ฅผ maximizeํ๋ ๊ฒ๊ณผ log likelihood๋ฅผ maximizeํ๋ ๊ฒ์ ๋์ผํ ๋ฌธ์ ์ด๋ค.)
๋ฒ ๋ฅด๋์ด ํ๋ฅ ๋ณ์์ ๋ํ ๋ก๊ทธ ์ฐ๋ ํจ์๋
์ด๋ค.
์ด ํจ์๋ฅผ ์ต๋ํํ๋ parameter๋ฅผ ์ฐพ๋๋ฐ, ์ด ๊ฒฝ์ฐ ๋ก๊ทธ ์ฐ๋ ํจ์๊ฐ parameter์ ๋ํด ๋น์ ํ์ด๊ธฐ ๋๋ฌธ์
์ ํ ํ๊ท์ ๊ฐ์ด ๋ช ์์ ์ธ ํด๊ฐ ์กด์ฌํ์ง ์๋๋ค.
๋ฐ๋ผ์ gradient descent ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ด ๋ฐ๋ณต์ ์ด๊ณ ์ ์ง์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ํด๋ฅผ ๊ตฌํ๊ฒ ๋๋ค.
์ถ๊ฐ์ ์ผ๋ก ๋ก์ง์คํฑ ํ๊ท์ neural network๋ฅผ ์ฐ๊ฒฐํด๋ณด๋๋ก ํ๊ฒ ๋ค.
์์์
๋ผ๋ ์์ ์ ์์๋๋ฐ, ์ด pi๊ฐ์ α+β1x1+β2x2+β3 x3+…+βnxn ์ ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ ์ฉํ ๊ฐ๊ณผ ๋์ผํ๋ค.
์๊ทธ๋ชจ์ด๋ ํจ์๋ f(x)=1/(1+e^(-x)) ๊ผด์ ํจ์์ด๋ค.
์ฆ, fully connected layer๋ฅผ ํต๊ณผํ ๊ฐ์ ํ์ฑํจ์๋ก ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ฐ๋ฉด ๋ก์ง์คํฑ ํ๊ท์ ๋์ผํ ๊ฒฐ๊ณผ์ธ ๊ฒ์ด๋ค.
'๐ > ๋จธ์ ๋ฌ๋ (ML)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Gradient Boosting (GBM) (6) | 2021.02.09 |
---|---|
[ML] multi-class performance (0) | 2020.10.10 |
[ML] ๋๋ค ํฌ๋ ์คํธ (random forest) (0) | 2020.10.10 |
[ML] SVM (0) | 2020.10.10 |