본문 바로가기
AI/딥러닝 기초(Deep learning)

[딥러닝][기초] 학습률(Learning rate)와 스케줄링

by Hyen4110 2021. 4. 29.
반응형

1. 학습률(Learning rate)이란?

: 경사하강법에서 파라미터를 업데이트하는 정도를 조절하기위한 변수입니다. 적절한 모델과 가중치 초깃값을 설정했음에도, 학습률에 따라서 모델의 학습이 달라질 수 있습니다. 

 

2. 학습률 스케줄링 방법

 1) 학습값을 크게 설정했다가, 학습의 진행과 함께 줄여나가기

   : 학습률을 파라미터 업데이트 수에 비례하여 감소하도록 스케줄링

   : 특정 업데이트 수가 지나면 감소하는 비율도 변경하기도한다.

   : (최적의 방법은 아니며, 오히려 배치 사이즈를 늘리는것이 좋다는 연구 결과도 있음)

 

 

2) 층마다 다른 학습률을 사용

 : 각 층의 가중치 업데이트 속도가 비슷하도록 가중치를 설정하는 것이 좋다. 

 : 로지스틱 함수처럼 출력값이 한정적인 활성화 함수를 사용할때 중요하다.

 : 출력층과 가까운 층에서는 학습률을 작게, 입력층과 가까운 층에서는 학습률을 크게하여 

 

 

3) 학습률을 자동적으로 결정

 - Adagrad 

: 드물게 나타나는 기울기의 성분을 자주 나타나는 기울기의 성분보다 중시하여 파라미트 업데이트

 

반응형

댓글