* ์ฐธ๊ณ ์ž๋ฃŒ

ratsgo.github.io/machine%20learning/2017/04/02/logistic/

 

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ · ratsgo's blog

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„  ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์ธ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€(Logistic Regression)์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฒˆ ๊ธ€์€ ๊ณ ๋ ค๋Œ€ ๊ฐ•ํ•„์„ฑ ๊ต์ˆ˜๋‹˜๊ณผ ์—ญ์‹œ ๊ฐ™์€ ๋Œ€ํ•™์˜ ๊น€์„ฑ๋ฒ”, ์ •์ˆœ์˜ ๊ต์ˆ˜๋‹˜ ๊ฐ•์˜๋ฅผ

ratsgo.github.io

hleecaster.com/ml-logistic-regression-concept/

 

๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€(Logistic Regression) ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ - ์•„๋ฌดํŠผ ์›Œ๋ผ๋ฐธ

๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๋ถ„๋ฅ˜ ๋ชจ๋ธ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•œ ๊ฐœ๋…์„ ์ตœ๋Œ€ํ•œ ์‰ฝ๊ฒŒ ์†Œ๊ฐœํ•œ๋‹ค. (์ด์ „์— ์„ ํ˜•ํšŒ๊ท€์— ๋Œ€ํ•œ ๊ฐœ๋…์„ ์•Œ๊ณ  ์žˆ๋‹ค๋ฉด ๊ธˆ๋ฐฉ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ˆ˜์ค€์œผ๏ฟฝ๏ฟฝ

hleecaster.com

 

 

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๋ฒ”์ฃผ(0, 1)์— ์†ํ•  ํ™•๋ฅ ์„ 0๊ณผ 1์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ์˜ˆ์ธกํ•˜๊ณ ,

์˜ˆ์ธก๋œ ํ™•๋ฅ  ๊ฐ’๊ณผ ์„ค์ •ํ•œ threshold๊ฐ’์„ ์ด์šฉํ•˜์—ฌ ๋ถ„๋ฅ˜๋ฅผ ์ง„ํ–‰ํ•˜๋Š” supervised learning์ด๋‹ค.

 

์„ ํ˜• ํšŒ๊ท€์™€ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์˜ ์ฐจ์ด์ ์€ ์„ ํ˜• ํšŒ๊ท€๋Š” ์—ฐ๊ฒฐ ํ•จ์ˆ˜(link function)๋กœ ํ•ญ๋“ฑ ์—ฐ๊ฒฐ(identity link)๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ,

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ๋กœ์ง“ ์—ฐ๊ฒฐ(logit link)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ์™œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ๋กœ์ง“ ์—ฐ๊ฒฐ์„ ์‚ฌ์šฉํ•˜์˜€๋Š”๊ฐ€?

์ด๊ฒƒ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด binary classification ๋ฌธ์ œ์—์„œ ์„ ํ˜• ํšŒ๊ท€๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ์ ์— ๋Œ€ํ•ด ๊ธฐ์ˆ ํ•˜๊ฒ ๋‹ค.

 

๋ฐ˜์‘๋ณ€์ˆ˜๊ฐ€ ์ด์ง„ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์ธ ๊ฒฝ์šฐ ๊ฐ๊ฐ์˜ ๋ฒ”์ฃผ๋ฅผ 0 ๋˜๋Š” 1์ด๋ผ๊ณ  ํ•˜์ž.

์ด๋Ÿฌํ•œ ์ž๋ฃŒ์— ์„ ํ˜•ํšŒ๊ท€๋ฅผ ์ ์šฉํ•˜๊ฒŒ ๋˜๋ฉด Y์˜ ์˜ˆ์ธก ๊ฐ’์ด 0๊ณผ 1์„ ๋ฒ—์–ด๋‚œ ๋ฒ”์œ„์˜ ๊ฐ’์ด ๋‚˜์˜จ๋‹ค.

์ด๋ ‡๊ฒŒ ๋˜๋ฉด ์„ ํ˜•ํšŒ๊ท€๋ฅผ ํ†ตํ•ด ๋‚˜์˜จ ๊ฐ’์„ Y=1์ด๋ผ๋Š” ๋ฒ”์ฃผ์— ์†ํ•  ํ™•๋ฅ ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์—†๊ฒŒ ๋œ๋‹ค.

(ํ™•๋ฅ  axiom์— ๋”ฐ๋ฅด๋ฉด ๋ชจ๋“  ํ™•๋ฅ ์€ 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ์ง€๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.)

๋”ฐ๋ผ์„œ logit์—ฐ๊ฒฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก๋œ ๊ฐ’์ด 0๊ณผ 1 ์‚ฌ์ด๋กœ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ค์–ด์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋‚˜์˜จ ๊ฒƒ์ด ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์ด๋‹ค.

 



๊ทธ๋ ‡๋‹ค๋ฉด ์—ฌ๊ธฐ์„œ ๋กœ์ง“ ์—ฐ๊ฒฐ์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

๋กœ๊ทธ-์˜ค์ฆˆ๋ฅผ ์ทจํ•ด์ฃผ๋Š” ๊ฒƒ์ด๋‹ค.

๋จผ์ € ์˜ค์ฆˆ๋Š”p/(1-p) ์œผ๋กœ, ์‹คํŒจ ํ™•๋ฅ  ๋Œ€๋น„ ์„ฑ๊ณต ํ™•๋ฅ ์ด๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ์˜ค์ฆˆ๊ฐ€ 0.8/0.2=4๋ผ๋ฉด ์‹คํŒจํ•œ ๊ฒฝ์šฐ ๋Œ€๋น„ ์„ฑ๊ณตํ•  ๊ฒฝ์šฐ๊ฐ€ 4๋ฐฐ ๋งŽ๋‹ค๊ณ  ํ•ด์„๋œ๋‹ค.

์ด๋ ‡๊ฒŒ ๊ตฌํ•œ ์˜ค์ฆˆ์— ๋กœ๊ทธ(ln)๋ฅผ ์ทจํ•ด์ค€ ๊ฒƒ์ด ๋กœ๊ทธ-์˜ค์ฆˆ์ด๋‹ค.

 

์ด๋ ‡๊ฒŒ ํ•ด์„œ logit(π)= α+β1x1+β2x2+β3x3+…+βnxn  ๊ณ„์‚ฐ์„ ํ†ตํ•ด Y=1 ๋ฒ”์ฃผ์— ์†ํ•  ํ™•๋ฅ , ์ฆ‰ π ๋ฅผ ๊ตฌํ–ˆ๋‹ค.

๊ทธ ๋‹ค์Œ ์ด ํ™•๋ฅ (π) ์„ ์ด์šฉํ•˜์—ฌ ์ตœ์ข… ์˜ˆ์ธก label์„ ๊ฒฐ์ •ํ•ด์•ผ ํ•œ๋‹ค.

ํ™•๋ฅ ์ด threshold๊ฐ’ ์ด์ƒ์ด๋ฉด 1๋กœ, ๋ฏธ๋งŒ์ด๋ฉด 0์œผ๋กœ ์ตœ์ข… ์˜ˆ์ธกํ•˜๋Š”๋ฐ, ์ด ๋•Œ ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ์—๋Š” threshold๋กœ 0.5๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

ํ•˜์ง€๋งŒ ๊ฒฝ์šฐ์— ๋”ฐ๋ผ threshold๊ฐ’์„ ์„ฑ๊ณตํ™•๋ฅ  ๊ฐ’์œผ๋กœ ์„ค์ •ํ•˜๋Š” ๋“ฑ ๋‹ค์–‘ํ•œ ์กฐ์ ˆ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

 

 

๊ทธ๋ ‡๋‹ค๋ฉด logit(π)= α+β1x1+β2x2+β3x3+…+βnxn  ์—์„œ βi  ๋“ฑ์˜ ๊ณ„์ˆ˜๋Š” ์–ด๋–ป๊ฒŒ ์ถ”์ •ํ•˜๋Š”๊ฐ€?

MLE ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค.

MLE๋Š” maximum likelihood estimation์˜ ์•ฝ์ž๋กœ, ์šฐ๋„ ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฐ’์œผ๋กœ ๋ชจ์ˆ˜๋ฅผ ์ถ”์ •ํ•œ๋‹ค๋Š” ๋œป์ด๋‹ค.

์šฐ๋„(likelihood)๋Š” ์–ด๋– ํ•œ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ–ˆ์„ ๋•Œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‚˜์˜ฌ ์ •๋„๋กœ, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜๊ณ  ์šฐ๋„๋ฅผ ๊ตฌํ•œ๋‹ค.

๋ฒ ๋ฅด๋ˆ„์ด ํ™•๋ฅ  ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์šฐ๋„ ํ•จ์ˆ˜๋Š”

์ธ๋ฐ, ๊ณ„์‚ฐ์˜ ํŽธ์˜์„ฑ์„ ์œ„ํ•ด log likelihood ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

(log ํ•จ์ˆ˜๋Š” ๋‹จ์กฐ ์ฆ๊ฐ€ ํ•จ์ˆ˜์ด๋ฏ€๋กœ, likelihood ๋ฅผ maximizeํ•˜๋Š” ๊ฒƒ๊ณผ log likelihood๋ฅผ maximizeํ•˜๋Š” ๊ฒƒ์€ ๋™์ผํ•œ ๋ฌธ์ œ์ด๋‹ค.)

๋ฒ ๋ฅด๋ˆ„์ด ํ™•๋ฅ  ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋กœ๊ทธ ์šฐ๋„ ํ•จ์ˆ˜๋Š”

 ์ด๋‹ค.

์ด ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” parameter๋ฅผ ์ฐพ๋Š”๋ฐ, ์ด ๊ฒฝ์šฐ ๋กœ๊ทธ ์šฐ๋„ ํ•จ์ˆ˜๊ฐ€ parameter์— ๋Œ€ํ•ด ๋น„์„ ํ˜•์ด๊ธฐ ๋•Œ๋ฌธ์—

์„ ํ˜• ํšŒ๊ท€์™€ ๊ฐ™์ด ๋ช…์‹œ์ ์ธ ํ•ด๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค.

๋”ฐ๋ผ์„œ gradient descent ๋ฐฉ๋ฒ•๊ณผ ๊ฐ™์ด ๋ฐ˜๋ณต์ ์ด๊ณ  ์ ์ง„์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ํ•ด๋ฅผ ๊ตฌํ•˜๊ฒŒ ๋œ๋‹ค.

 

 

์ถ”๊ฐ€์ ์œผ๋กœ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์™€ neural network๋ฅผ ์—ฐ๊ฒฐํ•ด๋ณด๋„๋ก ํ•˜๊ฒ ๋‹ค.

์œ„์—์„œ

๋ผ๋Š” ์‹์„ ์ ์—ˆ์—ˆ๋Š”๋ฐ, ์ด pi๊ฐ’์€ α+β1x1+β2x2+β3 x3+…+βnxn ์— ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•œ ๊ฐ’๊ณผ ๋™์ผํ•˜๋‹ค.

์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋Š” f(x)=1/(1+e^(-x))  ๊ผด์˜ ํ•จ์ˆ˜์ด๋‹ค.

์ฆ‰, fully connected layer๋ฅผ ํ†ต๊ณผํ•œ ๊ฐ’์— ํ™œ์„ฑํ•จ์ˆ˜๋กœ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ์“ฐ๋ฉด ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์™€ ๋™์ผํ•œ ๊ฒฐ๊ณผ์ธ ๊ฒƒ์ด๋‹ค.

 

'๐Ÿ™‚ > ๋จธ์‹ ๋Ÿฌ๋‹ (ML)' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[ML] Gradient Boosting (GBM)  (6) 2021.02.09
[ML] multi-class performance  (0) 2020.10.10
[ML] ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ (random forest)  (0) 2020.10.10
[ML] SVM  (0) 2020.10.10

+ Recent posts