<지난 시간 Delta Rule 정리>
2021.04.16 - [딥러닝(Deep learning)] - [딥러닝] 역전파 알고리즘(Back Propagation)1_ Delta Rule
- 앞의 글('01 역전파 알고리즘(Back Propagation) 기초_ Delta Rule')에서 Delta Rule에 근거한 가중치 업데이트 식을 살펴보았습니다.
- 또한, Delta Rule의 기본 가정은 너무나 단순하기 때문에, 일반화가 필요하다는 것도 확인했습니다.
Delta Rule의 기본가정 | 일반적인 네트워크 | |
1 | 단층신경망(Single Layer Perceptron) | 많은 은닉층(Hidden Layer)이 존재 |
2 | 활성화함수가 선형(linear)이거나 없음 | 활성화함수도 선형적이지 않음 |
3 | 손실함수(Loss function)이 Convex함 |
손실함수(Loss function)는 Convex 하지 않음 |
<Delta Rule의 일반화>
Delta Rule의 제한적인 가정 1, 2, 3 중에서 1, 2만을 일반화한 오차역전법을 살펴보겠습니다.
은닉층이 여러개가 있고, 비선형 활성화함수가 존재하는 일반적인 경우의 오차역전법을 보겠습니다.
- net(pj) : 활성화함수의 입력값으로 들어가는 값
- o(pj) : net(pj)가 활성화함수를 거쳐서 나오는 값
- f(j) : j 번째 뉴런의 활성화함수로, 여기에서는 시그모이드 함수를 써서 식을 전개하도록 하겠습니다.
- 가중치 업데이트양 전개
: 이전에는 가중치업데이트항을 O(pj)를 이용하여 체인룰로 나누었지만,
일반화한 식에서는 활성화함수에 넣기 전 값 net(pj)를 이용하여 체인룰로 나누었습니다.
이때
위에서 전개된 식을 최종적으로 정리하겠습니다.
이때, f(x)는 시그모이드 함수이기 때문에
f'(x) =f(x){1-f(x)}임을 이용하여 재정리하였습니다.
'AI > 딥러닝 기초(Deep learning)' 카테고리의 다른 글
[딥러닝][기초] 과적합(Overfitting)과 규제(Regularization) (0) | 2021.04.25 |
---|---|
[딥러닝][기초] Loss Curve, Accuracy Curve (2) | 2021.04.25 |
[딥러닝][기초] 역전파 알고리즘(Back Propagation) 3_단점 (0) | 2021.04.25 |
[딥러닝기초] CNN(Convolutional Neural Networks) (0) | 2021.04.23 |
[딥러닝기초] 역전파 알고리즘(Back Propagation)1_ Delta Rule (3) | 2021.04.16 |
댓글