<content>

  • batch normalization์˜ ๋ชฉ์ 
  • batch normalization์„ ์‚ฌ์šฉํ•˜๋ฉด ํ•™์Šต์ด ์ž˜ ๋˜๋Š” ์ด์œ 
  • batch normalization ๋ฐฉ๋ฒ•
  • mini-batch์—์„œ์˜ batch normalization
  • test-time์—์„œ์˜ batch normalization
  • batch normalization ์‚ฌ์šฉํ•˜๋ฉด bias๋Š” ํ•„์š”์—†๋‹ค

1. ๊ทธ ์œ ๋ช…ํ•œ batch normalization, ์™œ ํ•˜๋Š”๊ฑธ๊นŒ?

  • ํ•™์Šต์„ ๋•๋Š”๋‹ค.
  • ์ž…๋ ฅ ์ •๊ทœํ™”(input normalization)์™€ ๋‹ค๋ฅด๊ฒŒ, ์ค‘๊ฐ„์˜ hidden node๊นŒ์ง€ ์ •๊ทœํ™”๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค.

2. BN์„ ์‚ฌ์šฉํ•˜๋ฉด ์™œ ํ•™์Šต์ด ์ž˜ ๋˜๋Š”๊ฐ€?

 

  • batch normalization์„ ์ด์šฉํ•˜์—ฌ layer์˜ input scale๋ฅผ ์œ ์‚ฌํ•˜๊ฒŒ ๋งž์ถฐ์ฃผ๋ฉด zig-zag์‹์˜ parameter update๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ๋น ๋ฅธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค
  • covariate shift์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ ๋‹ค๋ฅธ ์ธต๊ณผ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต์ด ์ด๋ค„์ง€๊ฒŒ ํ•œ๋‹ค.

 

+ ์ถ”๊ฐ€์„ค๋ช…

  • batch normalization์„ ์ด์šฉํ•˜์—ฌ layer์˜ input scale๋ฅผ ์œ ์‚ฌํ•˜๊ฒŒ ๋งž์ถฐ์ฃผ๋ฉด zig-zag์‹์˜ parameter update๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ๋น ๋ฅธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
    • ์ด์ „์— ํ•™์Šต์„ ๋” ๋น ๋ฅด๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ์ž…๋ ฅ์„ normalization ํ•ด์ค€ ์ ์ด ์žˆ์—ˆ๋‹ค.
      • ์ž…๋ ฅ ๋ณ€์ˆ˜์˜ scale์ด ๋‹ค๋ฅด๋ฉด weight์˜ scale ๋˜ํ•œ ๋‹ฌ๋ผ์ง€๊ธฐ ๋•Œ๋ฌธ์— zig-zag ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋ฐœ์ƒํ•˜๊ธฐ ์‰ฝ๋‹ค.
      • zig-zag ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋Š” ์ˆ˜๋ ด ์†๋„๋ฅผ ๋Šฆ์ถ”๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์— ๋” ์˜ค๋žœ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฌ๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค.
      • ๋”ฐ๋ผ์„œ scaling์„ ํ†ตํ•ด ์ž…๋ ฅ๋ณ€์ˆ˜์˜ scale์„ ๋งž์ถฐ์ฃผ๋ฉด zig-zag ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ๋ง‰์•„ ํ•™์Šต ํšจ์œจ์ด ๋†’์•„์ง„๋‹ค.
    • ์ž…๋ ฅ ๋ฟ ์•„๋‹ˆ๋ผ, hidden node๊นŒ์ง€ normalizationํ•ด์ฃผ๋ฉด ๋” ๋น ๋ฅด๊ฒŒ train๋˜์ง€ ์•Š์„๊นŒ? ํ•˜๋Š” ์ƒ๊ฐ์—์„œ batch norm์ด ํƒ„์ƒํ•˜์˜€๋‹ค.
      • batch normalization์€ linear ํ†ต๊ณผํ•œ ํ›„, activation function ์ ์šฉํ•˜๊ธฐ ์ „ ์ˆ˜ํ–‰ํ•œ๋‹ค. (linear - BN - activation)

์ถœ์ฒ˜ : https://www.jeremyjordan.me/batch-normalization/

 

  • ๋˜ํ•œ covariate shift์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ ๋‹ค๋ฅธ ์ธต๊ณผ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต์ด ์ด๋ค„์ง€๊ฒŒ ํ•œ๋‹ค.
    • ์ค‘๊ฐ„ layer์—์„œ๋Š” ์ด์ „ layer์—์„œ์˜ ์ถœ๋ ฅ์„ ์ž…๋ ฅ์œผ๋กœ ๋น‹์•„ ์ •๋‹ต์„ ๋งž์ถ”๋Š” ์‹์œผ๋กœ ํ•™์Šตํ•œ๋‹ค.
    • ํ•˜์ง€๋งŒ ์ค‘๊ฐ„ layer์—์„œ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š” ๊ฐ’์€ parameter๊ฐ€ update๋˜๋ฉด์„œ ํ•ญ์ƒ ๋‹ฌ๋ผ์ง„๋‹ค.
      ์ฆ‰ covariate shift ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
    • ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ BN์„ ์‚ฌ์šฉํ•˜๋ฉด ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š” ๊ฐ’์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ ์ •๋„๋Š” ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์— ๋„์›€์ด ๋œ๋‹ค.

3. batch normalization, ์–ด๋–ป๊ฒŒ ํ•˜๋Š” ๊ฑธ๊นŒ?

 

  • 1. ํ‰๊ท ์„ ๊ตฌํ•œ๋‹ค
    • $$ \mu = \frac{1}{m} \sum_i z^{[l](i)} $$
  • 2. ๋ถ„์‚ฐ์„ ๊ตฌํ•œ๋‹ค.
    • $$ \sigma^2 = \frac{1}{m} \sum_i (z^{[l](i)}-\mu)^2$$
  • 3. ํ‰๊ท  0, ํ‘œ์ค€ํŽธ์ฐจ 1์ด ๋˜๋„๋ก ์ •๊ทœํ™” ํ•ด์ค€๋‹ค
    • $$ z_{norm}^{[l](i)} = \frac{z^{[l](i)}-\mu}{\sqrt{\sigma^2+\epsilon}} $$
  • 4. gamma์™€ beta parameter๋ฅผ ํ†ตํ•ด ์ ํ•ฉํ•œ ๋ถ„ํฌ๋กœ ๋ณ€๊ฒฝ (layer๋งˆ๋‹ค ์ ํ•ฉํ•œ distribution์ด ๋‹ค๋ฅผ ๊ฒƒ์ด๋ผ๋Š” ๊ฐ€์„ค)
    • $$ \tilde{z}^{[l](i)} = \gamma z_{norm}^{[l](i)} + \beta $$

 

  • * ์ฒจ์ž [l](i)์˜ ์˜๋ฏธ๋Š” l-th layer์˜ i๋ฒˆ์งธ ๊ฐ’์ด๋‹ค. (i๋ฒˆ์งธ ๊ฐ’์€ ๋‹จ์ผ๊ฐ’์ผ์ˆ˜๋„, ๋ฒกํ„ฐ์ผ์ˆ˜๋„ ์žˆ๋‹ค)
  • ์—ฌ๊ธฐ์„œ gamma์™€ beta๋Š” ํ•™์Šต๋˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ์ด๋‹ค. (ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์•„๋‹ˆ๋‹ค!)
  • ์ด์™€ ๊ฐ™์€ batch normalization์€ linear ํ†ต๊ณผํ•œ ํ›„ activation function ํ†ต๊ณผํ•˜๊ธฐ ์ „ ๊ฐ’์— ์ ์šฉ๋˜์–ด์ง„๋‹ค.

 


4. mini batch์—์„œ๋Š” batch normalization์ด ์–ด๋–ป๊ฒŒ ์ด๋ค„์ง€๋Š”๊ฐ€?

 

  • batch๋ณ„๋กœ ๊ณ„์‚ฐ๋œ ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ ์ •๋ณด ์ด์šฉํ•˜์—ฌ batch normalization์ด ์ˆ˜ํ–‰๋œ๋‹ค.


  •  

5. test time์—์„œ๋Š” BN์ด ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”๊ฐ€?

 

  • M, sigma์˜ ๊ฒฝ์šฐ mini-batch์—์„œ ๊ณ„์‚ฐ๋œ M, sigma์˜ expnentially weighted average๋ฅผ ์ด์šฉํ•˜์—ฌ ์ถ”์ •๋œ ๊ฐ’์„ ์‚ฌ์šฉํ•œ๋‹ค.
  • gamma์™€ beta๋Š” train์—์„œ ํ•™์Šต๋œ ๊ฐ’์„ ์ด์šฉํ•œ๋‹ค.

 


6. batch normalization์„ ์ ์šฉํ•˜๋ฉด beta parameter๋Š” ํ•„์š” ์—†๋‹ค.

 

  • BN ์ˆ˜ํ–‰ํ•˜๋ฉฐ ํ‰๊ท  ๋นผ์ฃผ๋Š” ๊ณผ์ •์—์„œ beta์˜ ํšจ๊ณผ๊ฐ€ ์‚ฌ๋ผ์ง„๋‹ค.
  • ๋”ฐ๋ผ์„œ BN์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ์— beta(=bias)๋Š” ๋ถˆํ•„์š”ํ•œ parameter๊ฐ€ ๋œ๋‹ค.

 

+ Recent posts