분류 전체보기124 [딥러닝][기초] 모멘텀(Momentum) 1. 모멘텀(Momentum) 이란? : 가중치를 업데이트 할때 이전 가중치의 업데이트값의 일정 비율을 더하는것으로, 가중치가 local minimum에 빠지지 않고 학습하는 방향대로 가도록 하는 방법 - 모멘텀 상수는 0.5~ 0.9 사이의 값으로 정한다. 2021. 4. 29. [딥러닝][기초] 학습률(Learning rate)와 스케줄링 1. 학습률(Learning rate)이란? : 경사하강법에서 파라미터를 업데이트하는 정도를 조절하기위한 변수입니다. 적절한 모델과 가중치 초깃값을 설정했음에도, 학습률에 따라서 모델의 학습이 달라질 수 있습니다. 2. 학습률 스케줄링 방법 1) 학습값을 크게 설정했다가, 학습의 진행과 함께 줄여나가기 : 학습률을 파라미터 업데이트 수에 비례하여 감소하도록 스케줄링 : 특정 업데이트 수가 지나면 감소하는 비율도 변경하기도한다. : (최적의 방법은 아니며, 오히려 배치 사이즈를 늘리는것이 좋다는 연구 결과도 있음) 2) 층마다 다른 학습률을 사용 : 각 층의 가중치 업데이트 속도가 비슷하도록 가중치를 설정하는 것이 좋다. : 로지스틱 함수처럼 출력값이 한정적인 활성화 함수를 사용할때 중요하다. : 출력층과.. 2021. 4. 29. [딥러닝][기초] 앙상블(Ensemble) 1. 앙상블(Ensemble) 이란? - 여러개의 서로 다른 신경망을 조합하여 추정의 정확도를 향상시키는 방법. - 같은 입력값에 대한 출력값의 평균을 최종 출력값으로 삼으며, 앙상블을 다른 표현으로 모델 평균(model averaging)이라고 도한다. - test의 결과를 보고 앙상블의 조합을 구상하지 않는다. : test를 배제한 채 test 와 validation set의 정확도만을 참고한다. 2. 앙상블의 종류 2.1 Soft Voting : 모든 모델의 출력값을 단순히 평균 낸것 : [장점] 많은 경우에 있어서 성능을 향상시키는 것으로 알려져있다. : [단점] 연산량이 많으며 학습 시간이 더 많이 필요하다. : 규제의 한 종류인 드롭아웃은 한 신경망을 사용하여 여러개의 신경망의 모델평균을 적용.. 2021. 4. 29. [딥러닝][기초] 데이터 정규화(Data nomalization) 아래의 블로그를 참고하여 작성한 글입니다 :) https://medium.com/techspace-usict/normalization-techniques-in-deep-neural-networks-9121bf100d8 Normalization Techniques in Deep Neural Networks Normalization has always been an active area of research in deep learning. Normalization techniques can decrease your model’s training time by a huge factor. Let me state some of the benefits of… medium.com 1. 데이터 정규화의 필요성 - 학습.. 2021. 4. 29. [딥러닝][기초] 손실함수(Loss function) 1. 손실함수(Loss function)이란? : 신경망의 출력값(output)과 정답(target) 사이의 거리로, Error function 이라고도 한다. 2. 문제 유형에 따른 손실함수 종류 Task Loss function Activation function of output layer Regression MSE (Mean Squared Error) Identity function Binary Classification Cross Entropy Sigmoid function Multiclass Classification Cross Entropy Softmax function 2021. 4. 29. [딥러닝][기초] 딥러닝 학습을 위한 Trick들 딥러닝의 현실적인 이슈들 1. 데이터 확장(Data Augmentation) 2. 데이터 정규화(Data normalization)/배치 정규화(Batch Normalization) 2021.04.29 - [딥러닝(Deep learning)] - [딥러닝] 데이터 정규화(Data nomalization) [딥러닝] 데이터 정규화(Data nomalization) 1. 데이터 정규화 1.1 표준 정규화 : 기본적인 전처리로 각 샘플을 평균이 0 분산이 1이되도록 변환한다. 1.2 Min-max normalization hyen4110.tistory.com 3. 아키텍처 최적화(Architecture optimization) 4. 손실함수(Loss function) 2021.04.29 - [딥러닝(Deep .. 2021. 4. 29. [통계] 카이제곱 검정(Chi-squre test) 1. 카이제곱 검정이란? - Chi(카이) 란? : 카이(chi, χ)란 그리스 알파벳 버전으로 표준정규분포를 의미 - 카이제곱분포(Chi-Square Distribution) - 카이제곱 검정(Chi-Square Distribution) : 피어슨의 카이제곱 검정은 하나 또는 더 많은 범주형 변수의 교차표*에서 예측 빈도(expected frequency)와 관측 빈도(observed frequency) 사이의 차이가 통계적으로 유의한지 결정하는 검정 (출처: 위키피디아) : 범주(category)별로 관측된 빈도와 기대빈도의 차이를 봄으로써 하나의 확률모형이 전반적으로 자료를 얼마나 잘 설명하는지 검정하는데 사용 (출처: KMOOCS) : 카이제곱값 구하는 법 -> χ² = Σ (관측값-기댓값)²/기.. 2021. 4. 27. [딥러닝][기초] 활성화 함수(Activation Function) Stanfoard CS231n 2017의 강의자료를 참고하여 작성하였습니다. (www.youtube.com/watch?v=vT1JzLTH4G4&list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv&index=0) 1. 시그모이드 함수(Sigmoid) 수식 그래프 미분 그래프 [사진출처] 위키피디아/isaacchanghau.github.io/img/deeplearning/activationfunction/sigmoid.png [특징] 1. 0에서 1사이의 값을 갖는다 (squashes numbers to range [0,1]) : 큰 값을 허락하지 않아서 gradient explosion을 방지하는데 좋았음(Good) 2. Vanishing Gradient 문제 발생 : 시그모이드 함수의.. 2021. 4. 25. [딥러닝][기초] 과적합(Overfitting)과 규제(Regularization) 1. 딥러닝 모델에서는 과적합(Overfitting)이 필요하다 - 딥러닝 모델은 일반적으로 최대한 오버피팅을 시킨 후 규제 등을 통해 오버피팅을 해결해나갑니다. 근데 왜 꼭 그렇게 해야만할까요? 처음부터 오버피팅이 안되도록 아키텍처를 설계하면 안될까요? - 딥러닝(deep learning)은 'representation learning'(또는 'feature learning')의 하위 분야입니다. 기존의 통계 모델에서는 이미 알려진 사실을 바탕으로 사람이 직접 feature를 추출하고 가공하는 feature engineering 과정이 필요했지만, 딥러닝 모델에서는 raw data에서 모델이 직접 feature를 만들어 냅니다. - 그렇기 때문에 처음부터 아키텍처를 simple 하게 설계한다면, hig.. 2021. 4. 25. [딥러닝][기초] Loss Curve, Accuracy Curve 딥러닝에서 Loss Curve, Accuracy Curve의 모양에 따라 어떤 조치를 취해주어야 하는지 보겠습니다. 1. Loss Curve Loss Curve 모양 무엇을 해야하나? 1 curve가 linear하다 learning rate를 더 높게 설정 2 curve의 감소폭이 적다 learning rate를 더 낮게 설정 3 curve의 진동(oscillation) 폭이 크다 batch size를 더 높게 설정 1.1 curve가 linear 할때 learning rate를 늘려준다. : curve가 linear하다는 것이 왜 문제일까? 일정한 폭으로 감소한다는 것이 문제일까? 생각할 수 있지만, 가장 좋은 curve 곡선은 'Loss Curve 2' 처럼 빠른 속도로 수렴하는 curve입니다 1... 2021. 4. 25. [딥러닝][기초] 역전파 알고리즘(Back Propagation) 3_단점 1) 수렴에 종종 실패, local minimum에 빠짐 2) Nonlocality, Synchrony(동시성), Long Training Time등 생물학적 신경망과 차이가있음 3) 초기값에 따라서 진동하거나 chaotic wandering 하기도 함 4) Gradient Vanishing, Gradient Explosion 문제 발생 2021. 4. 25. [딥러닝기초] 역전파 알고리즘(Back Propagation)_2 Delta Rule 일반화 2021.04.16 - [딥러닝(Deep learning)] - [딥러닝] 역전파 알고리즘(Back Propagation)1_ Delta Rule [딥러닝] 역전파 알고리즘(Back Propagation)1_ Delta Rule 이 글은 연세대학교 정보대학원 기본머신러닝 과목 수강하면서 공부한 내용을 바탕으로 작성한 글입니다. 역전파 알고리즘(Back Propagation) - 모델의 출력값(output)과 기대값(target)을 비교하여 차이 hyen4110.tistory.com - 앞의 글('01 역전파 알고리즘(Back Propagation) 기초_ Delta Rule')에서 Delta Rule에 근거한 가중치 업데이트 식을 살펴보았습니다. - 또한, Delta Rule의 기본 가정은 너무나 단순하.. 2021. 4. 25. [딥러닝기초] CNN(Convolutional Neural Networks) 아래 2개의 페이지를 정리한 글입니다. www.freecodecamp.org/news/an-intuitive-guide-to-convolutional-neural-networks-260c2de0a050/?gi=f79d86b111cb An intuitive guide to Convolutional Neural Networks by Daphne Cornelisse An intuitive guide to Convolutional Neural NetworksPhoto by Daniel Hjalmarsson on UnsplashIn this article, we will explore Convolutional Neural Networks (CNNs) and, on a high level, go through ho.. 2021. 4. 23. [통계] 05 두 집단 비교에 대한 추론 hyen4110.tistory.com/6?category=934053 [통계] 03 표본분포(Sampling distribution) 표본분포 기초 이론에 들어가기에 앞서, 어떻게, 왜 표본분포를 통해 모집단의 특성(모수)를 추정할 수 있는지 살펴보겠습니다. 1. [Why] 표본조사는 왜 하는가? -> '전수조사의 대안, 표본조사' 어 hyen4110.tistory.com 지금까지는 모집단이 1개였을 때에는, 모집단으로부터 표본분포를 구한 후 우리가 수집한 표본i가 표본분포 상에 존재하는 값임을 이용하여 표본분포의 평균과 표본i의 평균의 차이가 얼마나 유의미한지 계산하였습니다. (위의 이전 글 참고) 그렇다면, 두 집단을 비교하는 문제에서는 무엇을 비교해야 할까요? -> '두 모집단의 평균이 얼마나 차이.. 2021. 4. 23. [통계] 04 가설검정_1, 2종 오류와 유의수준 1. 1종 오류, 2종 오류 - 1종 오류 : 귀무가설이 참인데, 귀무가설을 기각 - 2종 오류 : 귀무무가설이 거짓인데 귀무가설을 채택 - 유의수준을 어떻게 설정하느냐에 따라서 1종오류가 발생하기도, 2종오류가 발생하기도 합니다. 유의수준이 높을 때 유의수준이 낮을 때 1) 신뢰구간이 줄어들어 신뢰구간내에 존재할 확률이 낮아짐 2) 기각역이 넓어져서 귀무가설을 더 잘 기각 하게된다 -> 1종 오류가 발생하기 쉽다 1) 신뢰구간이 넓어져서, 신뢰구간 내에 존재할 확률 높아짐 2) 기각역이 줄어들어, 귀무가설을 잘 기각하지 못함 -> 2종 오류가 발생하기 쉽다. 2021. 4. 19. 이전 1 ··· 5 6 7 8 9 다음