개인적으로 딥러닝 수강과목 퀴즈 준비를 위해 예상문제와 답안을 정리한 것입니다.
RNN(Recurrent Neural Network)
1. RNN과 기존 FNN의 차이점은?
: 기존 FNN은 모든 입력값은 서로 독립적이라는 것을 기본 가정으로 하였지만, RNN은 이전의 결과에 의존한다는 가정을 바탕으로 네트워크 안에 루프를 만들어 과거의 정보를 반영하여 계산함으로써 정보가 지속되도록 하였다.
2. RNN의 식은?
: h(t) = wx(t)+b+Uh(t-1)
3. RNN의 학습방법
: 시간축을 depth로 error signal을 전파하는 BPTT(Back-Propagation-Through-Time) 방식으로 학습
4. RNN에서 활성화함수로 tanh를 사용하는 이유는?
: 시간축을 depth로 error signal을 전파하는 BPTT(Back-Propagation-Through-Time) 방식으로 학습하는데, 이때 sigmoid보다 tanh의 gradient(기울기)가 커서(stiff) 기울기 소실을 완화하기 위하여 사용
: 음수값도 중요하기 때문에 ReLU가 아닌 tanh를 쓴다.
5. Vanila LSTM을 설명하시오.
: 기본적인 RNN은 h(t-1)을 전달하지만, LSTM은 cell state인 C(t-1)도 함께 전달하며, 3개의 gate(forget, input, output)를 가진다. forget gate에서는 이전의 Cell state(C(t-1))정보를 얼마나 통과시킬지를 결정하며, input gate에서는 새로운 정보를 얼마나 추가할 것인가를 결정하여 2개의 gate를 통해 Cell state가 업데이트 된다. output gate는 현재의 Cell state에서 어떤 부분만 출력할지를 결정하며 그값은 h(t)가 된다.
6. LSTM이 RNN에 비하여 가진 장점 2가지
1) Vanishing gradient, Exploding gradient 문제 해결
2) Long term dependency 문제 해결
7. LSTM의 단점
: 데이터가 많을 때에는 성능이 좋지만, 그렇지 않을 경우에는 파라미터수가 많기 때문에 연산비용이 많이 들고 오버피팅이 발생하기 쉽다.
8. Vanila GRU 설명
: LSTM과 비슷한 구조이지만, 더 간단한 구조로 이루어져있다. LSTM은 3개의 gate를 갖는 반면 GRU는 2개의 gate(update(z(t)), reset(r(t))를 갖으며, 2개의 state(cell state, hidden state)를 통합하여 하나의 hidden state만 갖는다. gate에서는 update gate가 forget과 input gate를 모두 제어하며, output gate가 없는 대신, 이전 상태 h(t-1)이 어느 부분 출력될지를 제어하는 새로운 reset gate(r(t))가 있다.
9. Bidirectional RNN
기존의 RNN 모델들은 '지금까지 주어진 것을 보고 다음을 예측'하는 것이었지만 뒤에 있는 정보가 중요한 경우, 시퀀스의 이전부분 뿐만 아니라 이후 부분까지 결합하여 예측하는 Bidirectional RNN 모델이 제안되었다.
10. O/X 문제
1) RNN의 드롭아웃에서, Recurrent connection(가로방향/time축)에는 드롭아웃을 적용하지 않고, 나머지 connection(세로방향)에만 드롭아웃을 적용한다.(O)
'AI > 딥러닝 기초(Deep learning)' 카테고리의 다른 글
[NLP] Transformer(트랜스포머)_② Deep dive (0) | 2021.05.24 |
---|---|
[딥러닝] 오토인코더(Autoencoder) (0) | 2021.05.20 |
[딥러닝][퀴즈] CNN(Convolutional Neural Network) (0) | 2021.05.20 |
[NLP] Transformer(트랜스포머)_1) Warm up (0) | 2021.05.17 |
[NLP] Bahdanau Attention(바다나우 어텐션) (0) | 2021.05.16 |
댓글