* ์ฐธ๊ณ
๋๋ค ํฌ๋ ์คํธ(random forest)๋ ์ฌ๋ฌ ๊ฐ์ ๊ฒฐ์ ํธ๋ฆฌ(decision tree)๋ฅผ ๋ชจ์์ ๋ง๋ ๋ชจ๋ธ์ด๋ค.
๋ฐ๋ผ์ ๋๋ค ํฌ๋ ์คํธ๋ฅผ ์๊ธฐ ์ํด์๋ ๋จผ์ ๊ฒฐ์ ํธ๋ฆฌ์ ๋ํด ์์์ผ ํ๋ค.
๊ฒฐ์ ํธ๋ฆฌ(decision tree)๋ ๋ถ๋ฅ์ ํ๊ท ๋ชจ๋ ๊ฐ๋ฅํ supervised learning model ์ค ํ๋๋ก,
ํน์ ๊ธฐ์ค์ ๋ฐ๋ผ ํ ๋ฒ์ ๋ถ๊ธฐ๋ง๋ค ๋ณ์ ์์ญ์ 2๊ฐ ์ด์์ ์์ญ์ผ๋ก ๊ตฌ๋ถํ๋ ๋ชจ๋ธ์ด๋ค.
ํน์ ๊ธฐ์ค์ ๋ฐ๋ผ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถํ๋ค๊ณ ํ๋๋ฐ, ๊ตฌ์ฒด์ ์ผ๋ก๋ information gain์ด ๊ฐ์ฅ ํฐ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถํ๋ค. information gain์ ์ํธ๋กํผ์ ๋ํ ๊ฐ์ ๊ธฐ๋์น๋ก, ๋ถ์๋์ ๊ฐ์ ์ ๋๋ฅผ ๋ํ๋ธ๋ค.
์๋์์ ์ํธ๋กํผ์ ๋ํ ์ ์๋ฅผ ์์ธํ ์ค๋ช ํ๊ฒ ๋ค.
์ํธ๋กํผ(entropy)๋ ๋ถ์๋๋ฅผ ์์น์ ์ผ๋ก ๋ํ๋ธ ์ฒ๋๋ก, 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ๋๋ค.
์ํธ๋กํผ๊ฐ ๋๋ค๋ ๊ฒ์(1์ ๊ฐ๊น๋ค๋ ๊ฒ์) ๋ถ์๋๊ฐ ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๊ณ ,
์ํธ๋กํผ๊ฐ ๋ฎ๋ค๋ ๊ฒ์(0์ ๊ฐ๊น๋ค๋ ๊ฒ์) ์๋๊ฐ ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
์ํธ๋กํผ๋ entropy= -sum(pi*log2(pi) ์ ์์ ํตํด ๊ณ์ฐ๋๋ค.
์ ๋ณด ํ๋๋(information gain)์ ์ํธ๋กํผ์ ๋ํ ๊ฐ์ ๊ธฐ๋์น๋ก, ๋ถ๋ชจ์ ์ํธ๋กํผ์์ ์์์ ์ํธ๋กํผ๋ฅผ ๋บ ๊ฐ์ด๋ค.
์ด ๊ฐ์ ๋ถ๊ธฐ๋ฅผ ์งํํ์ ๋ ๋ถ์๋๊ฐ ์ผ๋ง๋ ์ค์ด๋๋์ง๋ฅผ ๋ํ๋ธ๋ค.
๋ถ์๋๊ฐ ํฌ๊ฒ ์ค์ด๋ค์๋ก ์ข์ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ ๋ณด ํ๋๋์ด ๋์ ๋ฐฉํฅ์ผ๋ก ๋ถ๊ธฐ๋ฅผ ์งํํ๋ค.
๋ค์ ํ ๋ฒ ๊ฒฐ์ ํธ๋ฆฌ์ ๋ํด ์ ์ํ๋ฉด,
๊ฒฐ์ ํธ๋ฆฌ๋ ์ ๋ณด ํ๋๋(information gain)์ด ์ปค์ง๋ ๋ฐฉํฅ์ผ๋ก ๋ถ๊ธฐ๋ฅผ ์งํํ๋ฉฐ ํ์ตํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์์ฌ๊ฒฐ์ ๋๋ฌด๋ ๋๋ฌด ๊ตฌ์กฐ๋ก ํํ๋์ด ์ฝ๊ฒ ์ดํดํ ์ ์๊ณ ,
๋ ๊ฐ ์ด์์ ๋ณ์๊ฐ ๊ฒฐํฉํ๋ฉฐ ๋ชฉํ ๋ณ์์ ์ด๋ ํ ์ํฅ์ ์ฃผ๋ ์ง ์ฝ๊ฒ ํ์ ํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
๋ํ ๋น๋ชจ์์ ๋ชจํ์ผ๋ก ๋ถํฌ์ ๋ํ ๊ฐ์ ์ด ํ์ํ์ง ์๋ค.
ํ์ง๋ง ์ฐ์ํ ๋ณ์๋ฅผ ๊ตฌ๋ถํ ๋๋ ๋น์ฐ์์ ๊ฐ์ผ๋ก ์ทจ๊ธํ๊ธฐ ๋๋ฌธ์ ๋ถ๋ฆฌ์ ๊ฒฝ๊ณ ๋ถ๊ทผ์์ ์์ธก์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์๊ณ ,
train data๋ก๋ง ๋ถ๋ฆฌ ๊ท์น์ ํ์ตํ๊ธฐ ๋๋ฌธ์ overfitting์ด ๋ฐ์ํ๊ธฐ ์ฝ๋ค๋ ๋จ์ ์ด ์๋ค.
๋ฐ๋ผ์ ์์ฌ๊ฒฐ์ ๋๋ฌด์์ overfitting์ ๋ง๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ง์น๊ธฐ(pruning)๋ฅผ ์งํํ๊ธฐ๋ ํ๋๋ฐ,
๊ฐ์ง์น๊ธฐ์๋ DT ํ์ฑ ์ depth๋ฅผ ์ ํํ๋ ์ฌ์ ๊ฐ์ง์น๊ธฐ์
์ต๋ depth๊น์ง ํ์ฅํ ํ ๋์ค์ ๊ฐ์ง๋ฅผ ์๋ฅด๋ ์ฌํ ๊ฐ์ง์น๊ธฐ๊ฐ ์กด์ฌํ๋ค.
ํ์ง๋ง ์ด๋ ๊ฒ ๊ฐ์ง์น๊ธฐ๋ฅผ ํด๋ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ train data์ overfitting๋๋ ๊ฒฝํฅ์ด ์ฌ์ ํ ๋จ์์๋ค.
๋ฐ๋ผ์ ์ฌ๋ฌ ๊ฐ์ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์ด์ฉํด ์์ธก์ ์งํํ์๋ ์์ด๋์ด์์ ๋๋ค ํฌ๋ ์คํธ(random forest)๊ฐ ๋์ค๊ฒ ๋์๋ค.
๋๋ค ํฌ๋ ์คํธ๋ ์ฌ๋ฌ ๊ฐ์ ๊ฒฐ์ ํธ๋ฆฌ๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ ,
๊ฐ DT๋ ๋ชจ๋ ์ค๋ช ๋ณ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ๊ฐ์ ์ค๋ช ๋ณ์ ์ค ์ผ๋ถ ์ค๋ช ๋ณ์๋ง์ ์ด์ฉํด ๋ง๋ค์ด์ง๋ค.
์ผ๋ถ ์ค๋ช ๋ณ์๋ง ์ฌ์ฉํ๋ ์ด์ ๋ overfitting์ ๋ง๊ธฐ ์ํจ์ด๋ค.
๋๋ค ํฌ๋ ์คํธ๋ ์ ๋ ฅ์ด ์ฃผ์ด์ง๋ฉด ์ฌ๋ฌ ๊ฐ์ DT์์ ๋์จ ๊ฒฐ๊ณผ๋ฅผ ๋ค์๊ฒฐ์ ์์น์ ๋ฐ๋ผ ์ต์ข ์์ธก์ ์งํํ๋ค.
์ด๋ ๊ฒ ๋๋ฉด train data์ overfitting๋๋ ๋ฌธ์ ์ ์ ํด๊ฒฐํ ์ ์๋ค.
์ด๋ ๊ฒ ์ฌ๋ฌ ๊ฐ์ ๋ชจํ์์ ๋์จ ์์ธก๊ฐ์ ์ด์ฉํด ์ต์ข ์์ธก์ ์งํํ๋ ๋ฐฉ๋ฒ์ ์์๋ธ(ensemble)์ด๋ผ ํ๋ฉฐ,
๋๋ค ํฌ๋ ์คํธ๋ ์์๋ธ ๊ธฐ๋ฒ ์ค ํ๋์ ์ํ๋ค.
'๐ > ๋จธ์ ๋ฌ๋ (ML)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Gradient Boosting (GBM) (6) | 2021.02.09 |
---|---|
[ML] multi-class performance (0) | 2020.10.10 |
[ML] ๋ก์ง์คํฑ ํ๊ท (0) | 2020.10.10 |
[ML] SVM (0) | 2020.10.10 |