1. 학습률(Learning rate)이란?
: 경사하강법에서 파라미터를 업데이트하는 정도를 조절하기위한 변수입니다. 적절한 모델과 가중치 초깃값을 설정했음에도, 학습률에 따라서 모델의 학습이 달라질 수 있습니다.
2. 학습률 스케줄링 방법
1) 학습값을 크게 설정했다가, 학습의 진행과 함께 줄여나가기
: 학습률을 파라미터 업데이트 수에 비례하여 감소하도록 스케줄링
: 특정 업데이트 수가 지나면 감소하는 비율도 변경하기도한다.
: (최적의 방법은 아니며, 오히려 배치 사이즈를 늘리는것이 좋다는 연구 결과도 있음)
2) 층마다 다른 학습률을 사용
: 각 층의 가중치 업데이트 속도가 비슷하도록 가중치를 설정하는 것이 좋다.
: 로지스틱 함수처럼 출력값이 한정적인 활성화 함수를 사용할때 중요하다.
: 출력층과 가까운 층에서는 학습률을 작게, 입력층과 가까운 층에서는 학습률을 크게하여
3) 학습률을 자동적으로 결정
- Adagrad
: 드물게 나타나는 기울기의 성분을 자주 나타나는 기울기의 성분보다 중시하여 파라미트 업데이트
'AI > 딥러닝 기초(Deep learning)' 카테고리의 다른 글
[딥러닝][NLP] RNN(Recurrent Neural Network) (0) | 2021.05.07 |
---|---|
[딥러닝][기초] 모멘텀(Momentum) (0) | 2021.04.29 |
[딥러닝][기초] 앙상블(Ensemble) (0) | 2021.04.29 |
[딥러닝][기초] 데이터 정규화(Data nomalization) (0) | 2021.04.29 |
[딥러닝][기초] 손실함수(Loss function) (0) | 2021.04.29 |
댓글