WEEK2 : activation function (활성화함수)

2020. 12. 18. 23:12

activation function
- sigmoid
- tanh
- relu
- reaky relu

1. simgoid

https://alexander-schiendorfer.github.io/2020/02/17/why-so.sigmoid.html

$$ \sigma(x) = \frac{1}{1+\exp(-x)} $$

$$ \sigma'(x)=\sigma(x)(1-\sigma(x)) $$

[0, 1] 사이의 값으로 결과를 만들어준다.
인간 두뇌의 뉴런과 유사하기 때문에 오랫동안 사용되어 왔다.
💥 문제점
- vanishing gradient 문제 발생
- zero-centered가 아니다 (활성함수의 결과값의 중심이 0.5이다) -> zig-zag update가 발생 😢
- exp()는 연산비용이 비교적 크다

* 여기서 왜 not zero-centered가 문제가 되는가?

$$ x_i = \sigma(z_i) $$

$$ f = \sum w_ix_i+b $$

$$ \frac{df}{dw_i}=x_i $$

$$ \frac{dL}{dw_i} = \frac{dL}{df} \frac{df}{dw_i} = \frac{dL}{df} x_i $$

x_i가 모두 sigmoid를 통과한 결과물로, 양수(+)이기 때문에

dL/dw_1, dL/dw_2, ..., dL/dw_n 모두 동일한 부호값이 나온다.

따라서 zig-zag 식의 parameter update가 발생하기 때문에 수렴 속도가 느려지는 문제점이 있다.

+) not zero-centered에 대한 추가 링크

stats.stackexchange.com/questions/237169/why-are-non-zero-centered-activation-functions-a-problem-in-backpropagation

2. tanh

$$ tanh(x) = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} $$

$$ \frac{d tanh(x)}{x} = 1-(tanh(x))^{2} $$

[-1, 1] 사이의 값으로 결과를 만들어준다.
zero-centered이다 (sigmoid의 문제점 해결 ✨) -> zig-zag update가 발생하지 않는다.
문제점
- 여전히 vanishing gradient 문제가 심각하다.

3. ReLU

$$ relu(x) = \begin{cases}x & x \geq 0\\ 0 & x < 0\end{cases} $$

$$ relu'(x) = \begin{cases}1 & x \geq 0\\ 0 & x < 0\end{cases} $$

입력이 양수인 경우 gradient가 사라지지 않는다.
계산 비용이 낮다 (sigmoid, tanh는 exp가 존재했었다)
sigmoid / tanh보다 6배 정도 빨리 수렴한다.
생물학적으로 sigmoid보다 그럴듯하다.
문제점💥
- not zero-centered (sigmoid의 문제점이기도 하다)
- 입력이 음수인 경우 항상 0을 출력한다 (parameter가 학습되지 않는다)
- dying ReLU

* dying ReLU?

$$ a1 = w1x1+x2x2+b $$

$$ h1 = relu(a1) $$

$$ \frac{\partial L}{\partial w1} = \frac{\partial L}{\partial h1} \frac{\partial h1}{\partial a1} \frac{\partial a1}{\partial w1} $$

$$ \frac{\partial L}{\partial w2} = \frac{\partial L}{\partial h1} \frac{\partial h1}{\partial a1} \frac{\partial a1}{\partial w2} $$

$$ \frac{\partial L}{\partial b} = \frac{\partial L}{\partial h1} \frac{\partial h1}{\partial a1} \frac{\partial a1}{\partial b} $$

이 때, b가 매우 작은 숫자라서 h1 = max(a1, 0) = 0이 나왔다고 한다면, $$ \frac{\partial h1}{\partial a1} = 0 $$

이기 때문에 w1, w2, b 파라미터가 변하지 않는다. (=음수 입력에 대해 gradient 0이기 때문에 parameter update X)

이렇게 되면 계산되는 a1값이 동일하기 때문에 parameter가 계속 update되지 않는 문제점이 있다.

이러한 relu의 문제점을 dying relu라고 한다.

이 문제점을 해결하고자 나온 것이 leaky relu이다.

Deep Learning Best Practices: Activation Functions & Weight Initialization Methods — Part 1

Best Activation functions & Weight Initialization Methods for better accuracy

medium.com

4. Leaky ReLU

$$ f(x) = \begin{cases}x & x \geq 0\\0.01x & x< 0\end{cases} $$

$$ f'(x) = \begin{cases}1 & x \geq 0\\0.01 & x< 0\end{cases} $$

입력이 양수이든, 음수이든 gradient가 소멸되지 않는다.
dying relu 문제가 없다. (언제든 gradient가 흐른다)
계산하기 쉽다 (sigmoid, tanh는 exp 연산을 사용한다)
zero-centered에 가깝다 (relu나 sigmoid 대비)

+) non-linear activation function이 필요한 이유

linear activation function을 사용하면 deep하게 층을 쌓는 것의 의미가 사라진다.
여러개의 선형함수를 적용하는 것은 하나의 선형함수 적용하는 것과 동일하다.

저작자표시 비영리 변경금지 (새창열림)

'🙂 > Coursera_DL' 카테고리의 다른 글

WEEK3 : weight initialization (가중치 초기화) (0)	2020.12.19
WEEK3 : normalizing input (입력 정규화) (0)	2020.12.19
WEEK3 : regularization (정규화) (0)	2020.12.19
WEEK3 : train test split (with bias) (1)	2020.12.19
WEEK1 : introduction to Neural Network (0)	2020.10.20

순간 기록