ML ๋ชจ๋ธ์˜ ๋ชฉํ‘œ๋ฅผ ์„ค์ •ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•

  • ํ•˜๋‚˜์˜ evaluation metric์„ ์ •ํ•˜๋ผ.
  • ์—ฌ๋Ÿฌ๊ฐ€์ง€์˜ evaluation metric์„ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ, ํ•˜๋‚˜๋ฅผ metric์œผ๋กœ ๋‚˜๋จธ์ง€๋Š” ์กฐ๊ฑด์œผ๋กœ ์„ค์ •ํ•˜๋ผ.
  • dev / test์˜ ๋ถ„ํฌ๋Š” ๋™์ผํ•ด์•ผ ํ•˜๋ฉฐ, ์‹ค์ œ ํ™˜๊ฒฝ๊ณผ ์œ ์‚ฌํ•œ ๋ถ„ํฌ์˜ ๋ฐ์ดํ„ฐ์—ฌ์•ผ ํ•œ๋‹ค.
  • ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ๋‹ค๋ฉด, train : dev : test = 0.98 : 0.01 : 0.01 ๋น„์œจ๋กœ ๋‚˜๋ˆ„์–ด๋ผ
  • metric์— ์˜ํ•ด ๋ถ€์—ฌ๋œ ์ˆœ์œ„๊ฐ€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ์ˆœ์œ„์™€ ๋ถˆ์ผ์น˜ํ•˜๋ฉด, metric, dev/test set์„ ๋ฐ”๊ฟ”๋ผ.

 


1) ํ•˜๋‚˜์˜ evaluation metric์„ ์ •ํ•˜๋ผ

 

  • ํŠน์ •ํ•œ ๋ชจ๋ธ์„ ์„ ํƒํ•  ๋•Œ precision, recall 2๊ฐœ์˜ ์ง€ํ‘œ๋ฅผ ๋™์‹œ์— ๋ณด๋Š” ๊ฒƒ๋ณด๋‹ค, F1 score ํ•˜๋‚˜ ๋ณด๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.
  • A, B, C, D ๊ตญ๊ฐ€์˜ ์ •ํ™•๋„๋ฅผ ๋”ฐ๋กœ๋”ฐ๋กœ ๋ณด๋Š” ๊ฒƒ๋ณด๋‹ค, ํ‰๊ท  ์ •ํ™•๋„๋ฅผ ๋ณด๊ณ  ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.
  • ์ด์ฒ˜๋Ÿผ ์—ฌ๋Ÿฌ๊ฐœ์˜ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ•˜๋‚˜์˜ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ์„ค์ •ํ•˜๋ผ.
    • ์—ฌ๋Ÿฌ๊ฐœ์˜ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์„ ๋น„๊ตํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

2) ์กฐ๊ฑด๊ณผ optimizingํ•˜๊ณ ์ž ํ•˜๋Š” metric ์„ค์ •ํ•˜๊ธฐ

 

  • ์—ฌ๋Ÿฌ๊ฐ€์ง€ ํ‰๊ฐ€์ง€ํ‘œ(N๊ฐœ)๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์‹ถ์€ ๊ฒฝ์šฐ, 
    N-1๊ฐœ๋Š” ์กฐ๊ฑด์œผ๋กœ, ๋‚˜๋จธ์ง€ 1๊ฐœ๋ฅผ optimizingํ•˜๊ณ ์ž ํ•˜๋Š” metric์œผ๋กœ ์„ค์ •ํ•˜๋ผ.
classifier accuracy running time
A 90% 80ms
B 92% 95ms
C 95% 1500ms

 

  • A, B, C ๋ชจ๋ธ์— ๋Œ€ํ•œ accuracy, running time ์ •๋ณด๊ฐ€ ์กด์žฌํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž
    ๋ชจ๋ธ ์„ ํƒํ•˜๋Š”๋ฐ ์žˆ์–ด accuracy, running time ๋‘˜ ๋‹ค ๊ณ ๋ ค๋˜์–ด์•ผ ํ•˜๋Š” ์‚ฌํ•ญ์ด๋ผ๋ฉด, 
    ํ•˜๋‚˜๋Š” optimizingํ•˜๋Š” metric์œผ๋กœ ์„ค์ •ํ•˜๊ณ , ๋‚˜๋จธ์ง€๋Š” ์ถฉ์กฑ๋˜์–ด์•ผ ํ•˜๋Š” ์กฐ๊ฑด์œผ๋กœ ์„ค์ •ํ•œ๋‹ค.
  • ์œ„์˜ ์˜ˆ์‹œ์—์„œ running time์„ ์กฐ๊ฑด์œผ๋กœ ์„ค์ •ํ•˜๊ณ , accuracy๋ฅผ optimizingํ•˜๊ณ ์ž ํ•˜๋Š” metric์œผ๋กœ ์„ค์ •ํ–ˆ๋‹ค๊ณ  ํ•˜์ž.
    ๊ทธ๋ ‡๋‹ค๋ฉด, "running time์€ 100ms ์ดํ•˜"๋ผ๋Š” ์กฐ๊ฑด์„ ์ถฉ์กฑํ•˜๋ฉด ๋”์ด์ƒ running time์€ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ 
    accuracy๋งŒ์„ ์ด์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
  • C ๋ชจ๋ธ์€ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜์ง€ ์•Š์•˜๊ธฐ์— 1์ฐจ ํƒˆ๋ฝํ•˜๊ณ , ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋Š” A, B ๋ชจ๋ธ๋งŒ ๋‚จ๋Š”๋‹ค.
    ๊ทธ ๋‹ค์Œ์—๋Š” running time์€ ๋ณด์ง€ ์•Š๊ณ , accuracy๋งŒ ๋ณธ๋‹ค. ๋”ฐ๋ผ์„œ B ๋ชจ๋ธ์ด ์ตœ์ข… ๋ชจ๋ธ๋กœ ์„ ํƒ๋œ๋‹ค.

3) train / dev / test distribution

 

  • dev set๊ณผ test set์€ ๋™์ผํ•œ ๋ถ„ํฌ๋ฅผ ๋„๊ณ  ์žˆ์–ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
    • dev set, test set์˜ ๋Œ€์ƒ์ด ๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ randomํ•˜๊ฒŒ shuffleํ•œ ๋‹ค์Œ์— dev / test๋กœ ๋‚˜๋ˆ„์–ด์•ผ ํ•œ๋‹ค.
    • ex) dev set์€ ์–ด๋ฆฐ ์—ฐ๋ น๋Œ€์˜ ์‚ฌ๋žŒ, test set์€ ๋†’์€ ์—ฐ๋ น๋Œ€์˜ ์‚ฌ๋žŒ ๋ฐ์ดํ„ฐ๋กœ ๊ตฌ์„ฑ๋˜๋ฉด ์•ˆ ๋œ๋‹ค.
    • dev set๊ณผ test set์€ ์‹ค์ œ ๋™์ž‘ํ•˜๊ธธ ์›ํ•˜๋Š” ํ™˜๊ฒฝ๊ณผ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋กœ ๊ตฌ์„ฑ๋˜์–ด์•ผ ํ•œ๋‹ค.

4) dev, test dataset์˜ ํฌ๊ธฐ

 

  • ๊ณผ๊ฑฐ์—๋Š”
    • 1) train = 70%, test = 30%
    • 2) train = 60%, dev = 20%, test = 20%
    • ์˜ ๋น„์œจ๋กœ train / dev / test split์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค.
  • ์ตœ๊ทผ์—๋Š”
    • ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ๋‹ค๋ฉด, ๊ตณ์ด ์œ„์ฒ˜๋Ÿผ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆ„์ง€ ์•Š์•„๋„ ๋œ๋‹ค.
    • ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ๋‹ค๋ฉด dev data, test data๋Š” ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ชฉ์ ์ด๋ฏ€๋กœ 
      train = 98%, dev = 1%, test = 1%๋กœ ์„ค์ •ํ•ด๋„ ๋ฌธ์ œ๊ฐ€ ๋˜์ง€ ์•Š๋Š”๋‹ค.
    • ํ•˜์ง€๋งŒ test set ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ๋†’์€ ์‹ ๋ขฐ๋„๋ฅผ ๋ถ€์—ฌํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด test set์˜ ํฌ๊ธฐ๋ฅผ ์ข€ ๋” ๋Š˜๋ ค๋„ ๋œ๋‹ค.

 


5) ์–ธ์ œ ํ‰๊ฐ€์ง€ํ‘œ, dev/test dataset์„ ๋ฐ”๊พธ์–ด์•ผ ํ•˜๋Š”๊ฐ€?

 

  • ํ‰๊ฐ€์ง€ํ‘œ๊ฐ€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ˆœ์œ„๋ฅผ ์ •ํ™•ํžˆ ๋ถ€์—ฌํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ์— test/dev, ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ๋ฐ”๊พธ์–ด์•ผ ํ•œ๋‹ค. 
    • ์˜ˆ๋ฅผ ๋“ค์–ด ์ŠคํŒธ ํ•„ํ„ฐ๊ธฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•˜์ž.
    • A ๋ชจ๋ธ์˜ accuracy๋Š” 95%์ด์ง€๋งŒ, ์ŠคํŒธ์ด ์•„๋‹Œ ๊ฒƒ์„ ์ŠคํŒธ์ด๋ผ๊ณ  ์˜ˆ์ธกํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.
      B ๋ชจ๋ธ์˜ accuracy๋Š” 90%์ด์ง€๋งŒ, ์ŠคํŒธ์ด ์•„๋‹Œ ๊ฒƒ์„ ์ŠคํŒธ์ด๋ผ๊ณ  ์˜ˆ์ธกํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ ๋‹ค.
      ์‚ฌ์šฉ์ž์˜ ์ž…์žฅ์—์„œ ์ŠคํŒธ ๋Œ“๊ธ€์ด ๋ณด์ด๋Š” ๊ฒƒ๋ณด๋‹ค ๋‚˜์˜ ๋Œ“๊ธ€์ด ์ŠคํŒธ์ฒ˜๋ฆฌ ๋˜๋Š” ๊ฒƒ์— ๋” ๋ถˆํŽธํ•จ์„ ๋Š๋‚€๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž.
    • accuracy๋ฅผ ํ‰๊ฐ€์ง€ํ‘œ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ B ๋ชจ๋ธ๋ณด๋‹ค A ๋ชจ๋ธ์ด ์šฐ์ˆ˜ํ•˜๋‹ค๊ณ  ํŒ๋‹จํ•  ๊ฒƒ์ด์ง€๋งŒ,
      ์‚ฌ์šฉ์ž๋Š” A ๋ชจ๋ธ๋ณด๋‹ค B ๋ชจ๋ธ์ด ์šฐ์ˆ˜ํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•  ๊ฒƒ์ด๋‹ค.
    • ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ์—๋Š” ํ‰๊ฐ€์ง€ํ‘œ๊ฐ€ ๊ฐœ์„ ๋˜์–ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

 

+ Recent posts