* ์ฐธ๊ณ ์๋ฃ
ratsgo.github.io/machine%20learning/2017/04/02/logistic/
๋ก์ง์คํฑ ํ๊ท ยท ratsgo's blog
์ด๋ฒ ํฌ์คํ ์์ ๋ฒ์ฃผํ ๋ณ์๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ธ ๋ก์ง์คํฑ ํ๊ท(Logistic Regression)์ ๋ํด ์ดํด๋ณด๋ ค๊ณ ํฉ๋๋ค. ์ด๋ฒ ๊ธ์ ๊ณ ๋ ค๋ ๊ฐํ์ฑ ๊ต์๋๊ณผ ์ญ์ ๊ฐ์ ๋ํ์ ๊น์ฑ๋ฒ, ์ ์์ ๊ต์๋ ๊ฐ์๋ฅผ
ratsgo.github.io
hleecaster.com/ml-logistic-regression-concept/
๋ก์ง์คํฑํ๊ท(Logistic Regression) ์ฝ๊ฒ ์ดํดํ๊ธฐ - ์๋ฌดํผ ์๋ผ๋ฐธ
๋ณธ ํฌ์คํ ์์๋ ๋จธ์ ๋ฌ๋์์ ๋ถ๋ฅ ๋ชจ๋ธ๋ก ์ฌ์ฉ๋๋ ๋ก์ง์คํฑ ํ๊ท ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ๊ฐ๋ ์ ์ต๋ํ ์ฝ๊ฒ ์๊ฐํ๋ค. (์ด์ ์ ์ ํํ๊ท์ ๋ํ ๊ฐ๋ ์ ์๊ณ ์๋ค๋ฉด ๊ธ๋ฐฉ ์ดํดํ ์ ์๋ ์์ค์ผ๏ฟฝ๏ฟฝ
hleecaster.com
๋ก์ง์คํฑ ํ๊ท๋ ๋ฐ์ดํฐ๊ฐ ์ด๋ค ๋ฒ์ฃผ(0, 1)์ ์ํ ํ๋ฅ ์ 0๊ณผ 1์ฌ์ด์ ๊ฐ์ผ๋ก ์์ธกํ๊ณ ,
์์ธก๋ ํ๋ฅ ๊ฐ๊ณผ ์ค์ ํ threshold๊ฐ์ ์ด์ฉํ์ฌ ๋ถ๋ฅ๋ฅผ ์งํํ๋ supervised learning์ด๋ค.
์ ํ ํ๊ท์ ๋ก์ง์คํฑ ํ๊ท์ ์ฐจ์ด์ ์ ์ ํ ํ๊ท๋ ์ฐ๊ฒฐ ํจ์(link function)๋ก ํญ๋ฑ ์ฐ๊ฒฐ(identity link)๋ฅผ ์ฌ์ฉํ์ง๋ง,
๋ก์ง์คํฑ ํ๊ท๋ ๋ก์ง ์ฐ๊ฒฐ(logit link)๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ์ ๋ก์ง์คํฑ ํ๊ท๋ ๋ก์ง ์ฐ๊ฒฐ์ ์ฌ์ฉํ์๋๊ฐ?
์ด๊ฒ์ ์ดํดํ๊ธฐ ์ํด binary classification ๋ฌธ์ ์์ ์ ํ ํ๊ท๋ฅผ ์ฌ์ฉํ์ ๋ ๋ฐ์ํ๋ ๋ฌธ์ ์ ์ ๋ํด ๊ธฐ์ ํ๊ฒ ๋ค.
๋ฐ์๋ณ์๊ฐ ์ด์ง ๋ฒ์ฃผํ ๋ณ์์ธ ๊ฒฝ์ฐ ๊ฐ๊ฐ์ ๋ฒ์ฃผ๋ฅผ 0 ๋๋ 1์ด๋ผ๊ณ ํ์.
์ด๋ฌํ ์๋ฃ์ ์ ํํ๊ท๋ฅผ ์ ์ฉํ๊ฒ ๋๋ฉด Y์ ์์ธก ๊ฐ์ด 0๊ณผ 1์ ๋ฒ์ด๋ ๋ฒ์์ ๊ฐ์ด ๋์จ๋ค.
์ด๋ ๊ฒ ๋๋ฉด ์ ํํ๊ท๋ฅผ ํตํด ๋์จ ๊ฐ์ Y=1์ด๋ผ๋ ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ๋ก ํด์ํ ์ ์๊ฒ ๋๋ค.
(ํ๋ฅ axiom์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ ํ๋ฅ ์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ์ง๋๊ธฐ ๋๋ฌธ์ด๋ค.)
๋ฐ๋ผ์ logit์ฐ๊ฒฐ์ ์ฌ์ฉํ์ฌ ์์ธก๋ ๊ฐ์ด 0๊ณผ 1 ์ฌ์ด๋ก ๋์ฌ ์ ์๋๋ก ๋ง๋ค์ด์ฃผ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ํด์ ๋์จ ๊ฒ์ด ๋ก์ง์คํฑ ํ๊ท์ด๋ค.

๊ทธ๋ ๋ค๋ฉด ์ฌ๊ธฐ์ ๋ก์ง ์ฐ๊ฒฐ์ด๋ ๋ฌด์์ธ๊ฐ?
๋ก๊ทธ-์ค์ฆ๋ฅผ ์ทจํด์ฃผ๋ ๊ฒ์ด๋ค.
๋จผ์ ์ค์ฆ๋p/(1-p) ์ผ๋ก, ์คํจ ํ๋ฅ ๋๋น ์ฑ๊ณต ํ๋ฅ ์ด๋ค.
์๋ฅผ ๋ค์ด ์ค์ฆ๊ฐ 0.8/0.2=4๋ผ๋ฉด ์คํจํ ๊ฒฝ์ฐ ๋๋น ์ฑ๊ณตํ ๊ฒฝ์ฐ๊ฐ 4๋ฐฐ ๋ง๋ค๊ณ ํด์๋๋ค.
์ด๋ ๊ฒ ๊ตฌํ ์ค์ฆ์ ๋ก๊ทธ(ln)๋ฅผ ์ทจํด์ค ๊ฒ์ด ๋ก๊ทธ-์ค์ฆ์ด๋ค.
์ด๋ ๊ฒ ํด์ logit(ฯ)= ฮฑ+ฮฒ1x1+ฮฒ2x2+ฮฒ3x3+โฆ+ฮฒnxn ๊ณ์ฐ์ ํตํด Y=1 ๋ฒ์ฃผ์ ์ํ ํ๋ฅ , ์ฆ ฯ ๋ฅผ ๊ตฌํ๋ค.
๊ทธ ๋ค์ ์ด ํ๋ฅ (ฯ) ์ ์ด์ฉํ์ฌ ์ต์ข ์์ธก label์ ๊ฒฐ์ ํด์ผ ํ๋ค.
ํ๋ฅ ์ด threshold๊ฐ ์ด์์ด๋ฉด 1๋ก, ๋ฏธ๋ง์ด๋ฉด 0์ผ๋ก ์ต์ข ์์ธกํ๋๋ฐ, ์ด ๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์๋ threshold๋ก 0.5๋ฅผ ์ฌ์ฉํ๋ค.
ํ์ง๋ง ๊ฒฝ์ฐ์ ๋ฐ๋ผ threshold๊ฐ์ ์ฑ๊ณตํ๋ฅ ๊ฐ์ผ๋ก ์ค์ ํ๋ ๋ฑ ๋ค์ํ ์กฐ์ ์ด ๊ฐ๋ฅํ๋ค.
๊ทธ๋ ๋ค๋ฉด logit(ฯ)= ฮฑ+ฮฒ1x1+ฮฒ2x2+ฮฒ3x3+โฆ+ฮฒnxn ์์ ฮฒi ๋ฑ์ ๊ณ์๋ ์ด๋ป๊ฒ ์ถ์ ํ๋๊ฐ?
MLE ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
MLE๋ maximum likelihood estimation์ ์ฝ์๋ก, ์ฐ๋ ํจ์๋ฅผ ์ต๋ํํ๋ ๊ฐ์ผ๋ก ๋ชจ์๋ฅผ ์ถ์ ํ๋ค๋ ๋ป์ด๋ค.
์ฐ๋(likelihood)๋ ์ด๋ ํ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ ๋ ๋ฐ์ดํฐ๊ฐ ๋์ฌ ์ ๋๋ก, ๋ก์ง์คํฑ ํ๊ท๋ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ ๊ฐ์ ํ๊ณ ์ฐ๋๋ฅผ ๊ตฌํ๋ค.
๋ฒ ๋ฅด๋์ด ํ๋ฅ ๋ณ์์ ๋ํ ์ฐ๋ ํจ์๋

์ธ๋ฐ, ๊ณ์ฐ์ ํธ์์ฑ์ ์ํด log likelihood ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
(log ํจ์๋ ๋จ์กฐ ์ฆ๊ฐ ํจ์์ด๋ฏ๋ก, likelihood ๋ฅผ maximizeํ๋ ๊ฒ๊ณผ log likelihood๋ฅผ maximizeํ๋ ๊ฒ์ ๋์ผํ ๋ฌธ์ ์ด๋ค.)
๋ฒ ๋ฅด๋์ด ํ๋ฅ ๋ณ์์ ๋ํ ๋ก๊ทธ ์ฐ๋ ํจ์๋

์ด๋ค.
์ด ํจ์๋ฅผ ์ต๋ํํ๋ parameter๋ฅผ ์ฐพ๋๋ฐ, ์ด ๊ฒฝ์ฐ ๋ก๊ทธ ์ฐ๋ ํจ์๊ฐ parameter์ ๋ํด ๋น์ ํ์ด๊ธฐ ๋๋ฌธ์
์ ํ ํ๊ท์ ๊ฐ์ด ๋ช ์์ ์ธ ํด๊ฐ ์กด์ฌํ์ง ์๋๋ค.
๋ฐ๋ผ์ gradient descent ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ด ๋ฐ๋ณต์ ์ด๊ณ ์ ์ง์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ํด๋ฅผ ๊ตฌํ๊ฒ ๋๋ค.
์ถ๊ฐ์ ์ผ๋ก ๋ก์ง์คํฑ ํ๊ท์ neural network๋ฅผ ์ฐ๊ฒฐํด๋ณด๋๋ก ํ๊ฒ ๋ค.
์์์

๋ผ๋ ์์ ์ ์์๋๋ฐ, ์ด pi๊ฐ์ ฮฑ+ฮฒ1x1+ฮฒ2x2+ฮฒ3 x3+โฆ+ฮฒnxn ์ ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ ์ฉํ ๊ฐ๊ณผ ๋์ผํ๋ค.
์๊ทธ๋ชจ์ด๋ ํจ์๋ f(x)=1/(1+e^(-x)) ๊ผด์ ํจ์์ด๋ค.
์ฆ, fully connected layer๋ฅผ ํต๊ณผํ ๊ฐ์ ํ์ฑํจ์๋ก ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ฐ๋ฉด ๋ก์ง์คํฑ ํ๊ท์ ๋์ผํ ๊ฒฐ๊ณผ์ธ ๊ฒ์ด๋ค.
'๐ > ๋จธ์ ๋ฌ๋ (ML)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Gradient Boosting (GBM) (6) | 2021.02.09 |
---|---|
[ML] multi-class performance (0) | 2020.10.10 |
[ML] ๋๋ค ํฌ๋ ์คํธ (random forest) (0) | 2020.10.10 |
[ML] SVM (0) | 2020.10.10 |