<content>
- learning from multiple task
- transfer learning
- multi-task learning
Transfer Learning
1) Transfer Learning์ด๋?
- ์ฌ์ ์์ (source task)์ ๋ํ์ฌ ํ์ต๋ ์ ๋ณด๋ฅผ ๋ชฉํ ์์ (target task)์ ํ์ฉํ๋ ๋ฐฉ๋ฒ
2) Transfer Learning์ ์ฅ์
- target task์ ๋ํ ์๋ ด ์๋ ํฅ์, ์ฑ๋ฅ ํฅ์
- source task์ ๋ํ ์ถฉ๋ถํ ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด, target task์ ๋ํ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๋๋ผ๋ ๋น๊ต์ ๋์ ์ฑ๋ฅ ๋ณด์
3) Transfer Learning์ด ๋์์ด ๋๋ ์ด์
- ๋ฏธ๋ฆฌ pre-trained๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์ด์ฉํ๋ฉด low level์ ๋ํ ์ง์ ์ต๋ํ๊ณ ์์ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ
- ์ด๋ฌํ ์ฅ์ ์ ์ด์ฉํ๊ธฐ ์ํด์ pre-trained ๋ชจ๋ธ์ ๋ชจ๋ task์ ์ ์ฉ๋ ์ ์๋ ๊ณตํต์ ์ธ ํน์ง์ ํ์ตํ๋ ๊ฒ์ด ์ข๋ค.
4) Transfer Learning์ ์ ๊ทผ ๋ฐฉ์
- weight initialization
- source task์ ์ฌ์ฉ๋ ๊ตฌ์กฐ๋ฅผ target task๋ฅผ ์ํ ๋ชจ๋ธ์ ์ ์ฉ
- ์ผ๋ถ layer๋ฅผ ์ถ๊ฐ/์ ๊ฑฐ ๋ฑ ์์ ํ๊ธฐ๋ ํ๋ค.
- ์ฌ์ ํ์ตํ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ก ์ด๊ธฐํ
- target task ํ์ตํ๊ธฐ ์ํ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ๊ฒฝ์ฐ, ์ ์ฒด๋ฅผ fine-tuning
- target task ํ์ตํ๊ธฐ ์ํ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ๊ฒฝ์ฐ, ์ผ๋ถ layer๋ง fine-tuning
- * source task์ ๋ํด ๊ฐ์ค์น ํ์ต = pre-training
- * pre-training๋ weight๋ฅผ target task์ ๋ํด ๊ฐฑ์ = fine-tuning
- source task์ ์ฌ์ฉ๋ ๊ตฌ์กฐ๋ฅผ target task๋ฅผ ์ํ ๋ชจ๋ธ์ ์ ์ฉ
- feature extraction
- feature ์ถ์ถ์ ์ํด์ source model ์ฌ์ฉ
- source task์ ์ฌ์ฉ๋ ๊ตฌ์กฐ๋ฅผ target task๋ฅผ ์ํ ๋ชจ๋ธ์ ์ ์ฉํ์ง๋ง fine-tuning ์ํํ์ง ์์
5) Transfer Learning์ ์ฌ์ฉํ๋ ๊ธฐ์ค
A์์์ ์ง์์ B์๊ฒ๋ก transferํ๋ ์ํฉ์ด๋ผ๋ฉด
- A task์ B task์ input์ด ๋์ผํ ๋ (ex. image, text, audio ๋ฑ)
- A task ๋ฐ์ดํฐ์ ์ >> B task ๋ฐ์ดํฐ์ ์
- A์์์ low feature๊ฐ B ํ์ต์ ๋์์ด ๋๋ ๊ฒฝ์ฐ
6) Transfer Learning์ ๋ค์ํ ์ข ๋ฅ
- same task (-> transductive transfer learning)
- 1) domain adaptation : ์ฌ์ ์์
๊ณผ ๋ชฉํ์์
๋์ผํ์ง๋ง, ์์ญ์ด ๋ค๋ฅธ ๊ฒฝ์ฐ
- A. gradient reversal domain adaptation
- task classifier์ domain classifier๊ฐ ์กด์ฌํ๋๋ฐ, domain classifier์ loss๋ reverseํ์ฌ ์ ๋ฌ
- ์ฆ, domain classifier๋ loss๊ฐ maximize๋๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ค์น ์ ๋ฐ์ดํธ
- B. adversarial discriminative domain adaption
- 1) feature extractor ๊ณ ์ / domain classifier ํ์ต (์ด ๋ domain์ ๋ํ real ์ ๋ต ์ด์ฉ)
- 2) domain classifier ๊ณ ์ / feature extractor์ task classifier ํ์ต
- ์ด ๋ domain์ ๋ํ ์ค๋ต์ ์ฃผ๊ณ feature extractor์ weight ํ์ต (domain specificํ ์์ญ์ด ํ์ต๋์ง ๋ชปํ๋๋ก)
- A. gradient reversal domain adaptation
- 2) cross-lingual learning : ์ฌ์ ์์ ๊ณผ ๋ชฉํ์์ ๋์ผํ์ง๋ง, ์ธ์ด๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ
- 1) domain adaptation : ์ฌ์ ์์
๊ณผ ๋ชฉํ์์
๋์ผํ์ง๋ง, ์์ญ์ด ๋ค๋ฅธ ๊ฒฝ์ฐ
- different task (-> inductive transfer learning)
- 1) multi-task learning : tasks learned simultaneously
- ๊ด๋ จ์๋ ์์ ๋ค์ ํํ์ ๊ณต์ ํ์ฌ ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์
- 1) hard parameter sharing
- 2) soft parameter sharing
- 2) sequential transfer learning : tasks learned sequentially
- ์ฌ์ ์์ ๊ณผ ๋ชฉํ์์ ์ด ๋ค๋ฅด๊ณ ๊ฐ ์์ ์ ๋ํด์ ์์ฐจ์ ์ผ๋ก ํ์ต์ ์ํ
- 1) multi-task learning : tasks learned simultaneously
'๐ > Coursera_DL' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
WEEK5 : end to end DL (0) | 2020.12.21 |
---|---|
WEEK5 : Multi-Task Learning (0) | 2020.12.20 |
WEEK5 : traning set๊ณผ dev/test set์ ๋ถ์ผ์น (0) | 2020.12.20 |
WEEK5 : error analysis (์๋ฌ ๋ถ์) (0) | 2020.12.20 |
WEEK5 : avoidable bias & variance ๋น๊ต๋ฅผ ํตํ ์ ๋ต ์ธ์ฐ๊ธฐ (0) | 2020.12.20 |