1. language model
์ธ์ด ๋ชจ๋ธ์์ ์ฌ์ฉ๋๋ beam search๋ฅผ ์ค๋ช ํ๊ธฐ ์ ์, ๋จผ์ ์ธ์ด ๋ชจ๋ธ์ ๋ํ ์ค๋ช ์ ๊ธฐ๋กํ๋ค.
์ธ์ด๋ชจ๋ธ์ ๋จ์ด ์ํ์ค์ ํ๋ฅ ์ ํ ๋นํ๋ ์ผ์ ํ๋ ๋ชจ๋ธ์ด๋ค.
๋จ์ด ์ํ์ค์ ํ๋ฅ ์ ํ ๋นํ ๋ ์ฃผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ด์ ๋จ์ด๋ค์ด ์ฃผ์ด์ก์ ๋ ๋ค์ ๋จ์ด๊ฐ ๋์จ ๋น๋๋ฅผ ์ด์ฉํ๋ ๊ฒ์ด๋ค.
์์ชฝ์ ๋จ์ด๋ก๋ถํฐ ์ค์ฌ๋จ์ด๊ฐ ๋์ค๋ ๋น๋๋ฅผ ์ด์ฉํ์ฌ ๋จ์ด ์ํ์ค์ ํ๋ฅ ์ ๋ถ์ฌํ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ ์๊ธด ํ๋ค.
ํ๋ฅ ํ ๋น ์ ๋ง์ด ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ด์ ๋จ์ด๋ค์ด ์ฃผ์ด์ก์ ๋ ๋ค์ ๋จ์ด๊ฐ ๋์ค๋ ๋น๋๋ฅผ ์ด์ฉํ๋ ๊ฒ์ด๋ผ๊ณ ํ์๋๋ฐ,
์ด ํ๋ฅ ์ ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
$$ P(W) = P(w_1, w_2, w_3, ..., w_n) = \prod_{i=1}^{n}P(w_i|w_1, w_2, ..., w_{i-1}) $$
$$ = P(w_1)P(w_2|w_1)P(w_3|w_1, w_2)...P(w_n|w_1, w_2, ..., w_{n-1}) $$
2. greedy search
1) greedy search๊ฐ ๋ฌด์์ธ๊ฐ?
greedy search(=hill climbing search)๋ heuristic search์ ์ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ต์ ํด๋ฅผ ๊ตฌํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๊ทผ์ฌ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค.
์ฌ๋ฌ ๊ฒฝ์ฐ ์ค ํ๋๋ฅผ ๊ฒฐ์ ํด์ผ ํ ๋๋ง๋ค ๊ทธ ์๊ฐ์ ์ต์ ์ด๋ผ๊ณ ์๊ฐ๋๋ ๊ฒ์ ์ ํํ๋ฉฐ ์งํํด๋๊ฐ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
greedy search๋ฅผ ์ด์ฉํด ๊ตฌํ ํด๊ฐ ์ต์ ์ด๋ผ๋ ๋ณด์ฅ์ ์๋ค.
๋ฐ๋๋ก, ์ต์ ์ ํด๊ฐ ํ๋๋ง ์กด์ฌํ๋ uni-modal problem์์๋ ์ต์ ์ ํ์ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
2) language model์์ greedy search๊ฐ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋๊ฐ?
language model์์๋ ๊ฐ step๋ง๋ค ์ด์ ๋จ์ด๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์์ ๋์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ค.
์ด ๋ greedy search๋ฅผ ์ด์ฉํด ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ฒฝ์ฐ,
P(w_n|w_1, w_2, ..., w_n-1)์ด ์ต๋๊ฐ ๋๋ ๋จ์ด w_n์ ์์ธก๊ฐ์ผ๋ก ์ฌ์ฉํ๊ฒ ๋๋ค.
์ฆ ์ด์ ๋จ์ด๊ฐ ์ฃผ์ด์ก์ ๋ ํน์ ๋จ์ด๊ฐ ๋ค์์ ๋์ฌ ํ๋ฅ ์ ๊ตฌํ ๋ค, ๊ทธ ์ค ์ต๋ ํ๋ฅ ๊ฐ์ ์ฐ์ถํ๋ ๋จ์ด๋ฅผ ๋ค์ ๋จ์ด๋ก ์ ํํ๋ ๊ฒ์ด๋ค.
3) language model์์ greedy search๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฌด์์ด ๋ฌธ์ ์ธ๊ฐ?
- ๊ตญ์์ ์ผ๋ก๋ ์ต์ ์ ๋จ์ด์ด๋, ์ ์ญ์ ์ผ๋ก๋ ์ต์ ์ ๋จ์ด๊ฐ ์๋ ์ ์๋ค.
- ์ฆ, ์ ์ฒด ๋ฌธ์ฅ์ ๋ณด์์ ๋ ๊ทธ ๋จ์ด๊ฐ ์ต์ ์ ๋จ์ด๊ฐ ์๋ ์ ์๋ค๋ ๋ง์ด๋ค.
- ๋ฌธ์ฅ ์์ฑ ์ input ๋จ์ด๊ฐ ๋์ผํ๋ฉด ๋งค๋ฒ ๋์ผํ ๋ฌธ์ฅ์ด ์์ฑ๋๋ค.
3. beam search
1) beam search๊ฐ ๋ฌด์์ธ๊ฐ?
beam search ์ญ์ ์์์ ๋ค๋ค๋ hill climbing search์ ๋ง์ฐฌ๊ฐ์ง๋ก heuristic search์ ์ํ๋ค.
beam search๋ ํ๊ฐ๊ฐ์ด ์ฐ์ํ ์ผ์ ๊ฐ์์ ํ์ฅ ๊ฐ๋ฅํ ๋ ธ๋๋ง์ ๋ฉ๋ชจ๋ฆฌ์ ๊ด๋ฆฌํ๋ฉด์ ์ต์ ์ฐ์ ํ์์ ์ ์ฉํ๋ ๊ธฐ๋ฒ์ด๋ค.
์ฆ, best first search์์ ๊ธฐ์ต ๋ ธ๋์ ์๋ฅผ ์ ํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
2) language model์์ beam search๊ฐ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋๊ฐ?
language model์์๋ ๊ฐ step๋ง๋ค ์ด์ ๋จ์ด๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์์ ๋์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ค.
์ด ๋ beam search๋ฅผ ์ด์ฉํด ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ฒฝ์ฐ,
P(w_n|w_1, w_2, ..., w_n-1)์ ๋ชจ๋ ๋จ์ด์ ๋ํด ๊ตฌํ ํ ์์ K๊ฐ์ ๋จ์ด๋ง ๋จ๊ธฐ๊ณ ๋๋จธ์ง๋ ๊ณ ๋ ค๋์์์ ์ ์ธํ๋ค.
์ฒซ ๋ฒ์งธ step์์ ์ด๋ ๊ฒ ๋ฝํ k๊ฐ์ ๋จ์ด๋ฅผ w_21, w_22, ..., w_2k๋ผ ํ์.
๊ทธ ๋ค์์๋ P(w_3|w_1, w_21), P(w_3|w_1, w_22), ... P(w_3|w_1, w_2k)๋ฅผ ๋ชจ๋ ๋จ์ด w_3์ ๋ํด์ ๊ตฌํ ๋ค ์์ K๊ฐ์ ๋จ์ด๋ง ํ๋ณด ๋จ์ด๋ก ๊ณ ๋ คํ๋ ๊ฒ์ด๋ค.
์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉด ์ต์ข ์ ์ผ๋ก K๊ฐ์ sequence๊ฐ ๋์ค๊ฒ ๋๋๋ฐ, ์ด ์ค ์ต๋ ํ๋ฅ ๊ฐ์ ๊ฐ์ง sequence๋ฅผ ์ต์ข sequence๋ก ์ ํํ๋ค.
์์ ์ฒจ๋ถํ ์ฌ์ง์ ๋ณด๋ฉด ์ดํด์ ๋์์ด ๋ ๊ฒ์ด๋ผ ์๊ฐํ๋ค.
3) language model์์ beam search๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฌด์์ด ํด๊ฒฐ๋๋๊ฐ?
greedy search๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ ๋จ์ด๋ฅผ ์ ํํ๋ฉด ๊ตญ์์ ์ผ๋ก๋ ์ต์ ์ ๋จ์ด์ด๋, ์ ์ญ์ ์ผ๋ก๋ ์ต์ ์ ๋จ์ด๊ฐ ์๋ ์ ์๋ค๊ณ ํ๋ค.
ํ์ง๋ง beam search๋ฅผ ์ด์ฉํ๋ฉด ์ด๋ฌํ ๋ฌธ์ ๊ฐ ์ํ๋ ์ ์๋ค (์์ ํ ํด๊ฒฐ๋๋ ๊ฒ์ ์๋๋ค)
์ด ๋ ๊ธฐ์ตํ๊ณ ์ ํ๋ ํ๋ณด ๋ ธ๋์ ๊ฐ์๊ฐ ๋ง์์๋ก ์ต์ ์ ํด์ ๊ฐ๊น์์ง์ง๋ง, ์๋๊ฐ ๋๋ ค์ง๋ค๋ ๋จ์ ์ด ์กด์ฌํ๋ค.
๋ฐ๋๋ก ํ๋ณด ๋ ธ๋์ ๊ฐ์๊ฐ ์ ์์๋ก ์ต์ ์ ํด์์๋ ๋น๊ต์ ๋ฉ์ด์ง์ง๋ง ์๋๋ ๋น ๋ฅด๋ค๋ ์ฅ์ ์ด ์กด์ฌํ๋ค.
๊ทธ๋ ๋ค๋ฉด ํ๋ณด ๋ ธ๋์ ์๊ฐ ์ ์ ํ ์ง, ๋ถ์ ์ ํ ์ง ์ด๋ป๊ฒ ํ๋จํ ์ ์๋๊ฐ?
4. error analysis on beam search
์ฌ๋์ด ๋ณด๊ธฐ์ ์ต์ ์ ๋ฌธ์ฅ์ด๋ผ๊ณ ํ๋จํ ๋ฌธ์ฅ์ y, ์๊ณ ๋ฆฌ์ฆ์ด ์ต์ ์ด๋ผ๊ณ ํ๋จํ ๋ฌธ์ฅ์ y_hat ๋ผ๊ณ ํ์.
- ๋ชจ๋ธ์ ๋ฃ์์ ๋ P(y) > P(y_hat)์ธ ๊ฒฝ์ฐ
- RNN ๋ชจ๋ธ์ ์ ํ์ต๋์์ผ๋, beam search์์ ์๋ชป ํ๋จํ ๊ฒฝ์ฐ์ด๋ค.
- ๋ฐ๋ผ์ beam search์์ ๊ธฐ์ตํ๊ณ ์ ํ๋ ๋ ธ๋์ ๊ฐ์๋ฅผ ๋๋ ค์ผ ํ๋ค.
- ๋ชจ๋ธ์ ๋ฃ์์ ๋ P(y) < P(y_hat)์ธ ๊ฒฝ์ฐ
- RNN ๋ชจ๋ธ์ด ์๋ชป ํ์ต๋ ๊ฒ
- ์ ๊ทํ๋ฅผ ์ํํ๊ฑฐ๋ ํ์ต๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐ์์ผ ๋ค์ ํ์ตํด์ผ ํ๋ค.
์ฌ๋ฌ๊ฐ์ง์ (y, y_hat) ์์ ๊ตฌํ ๋ค ๊ฐ๊ฐ์ sequence๊ฐ ๋์ฌ ํ๋ฅ ์ ๊ตฌํ ๋ค
RNN model์ด ์๋ชป๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋์ง, beam search๊ฐ ์๋ชป๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋์ง ํ๋จํ์ฌ ์ ์ ํ ์กฐ์น๋ฅผ ์ทจํ๋ ๊ฒ์ด ์ค์ํ๋ค.
'๐ > Coursera_DL' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
WEEK8 : Attention (0) | 2020.12.27 |
---|---|
WEEK8 : Bleu score (0) | 2020.12.27 |
WEEK8 : negative sampling (0) | 2020.12.26 |
WEEK8 : Word Embedding (word2vec) (0) | 2020.12.26 |
WEEK7 : LSTM, GRU (0) | 2020.12.25 |