Wednesday, December 7, 2016

Stochastic Gradient Descent 자동 학습속도 조절 알고리즘 정리


이미지와 내용은 http://www.deeplearningbook.org을 참고했습니다. 저도 별로 이해하고있는게 없어서 간단히 요약만 합니다.


  • AdaGrad를 보면, 그라디언트를 1/sqrt(r)에 비례하도록 크기를 조절합니다(노랑색). 그리고 r은 그라디언트^2를 누적해서 더한 값입니다(초록색). 결과적으로 학습이 진행되면서 학습속도(learning rate)가 지속적으로 감소합니다. 
  • 이 방법은 Convex 최적화 관점에서 보면 - 즉 풀고자하는 문제가 컨벡스라면 - 별 문제 없습니다. 하지만 딥러닝 모델의 경우에 어느정도 학습을 진행하다보면 학습 속도가 너무작아진다는 문제가 실험적으로 밝혀졌습니다.
    • 아마도 이는 saddle point때문이 아닌가 생각합니다. 

  • RMSProp은 AdaGrad와 비슷하지만 (노랑색) 차이가 있습니다 (빨강색). ρ (rho)는 보통 0.9를 사용하는데, 쉽게 이야기하면 ρ만큼만 기억하고, (1-ρ)만큼만 업데이트를 합니다. 혹은 이 과정이 계속되면 아주 오래전의 그라디언트는 지속적으로 ρ가 곱해지면서 값이 작아지게 되고, 최근에 추가된 그라디언트가 상대적으로 큰 영향력을 발휘하게됩니다. 결과적으로 학습 속도의 감쇠가 AdaGrad보다 약하게 일어납니다.
  • RMSProp은 힌튼의 Coursera 강의에서 처음 소개되었고 한동안 (사실 지금도) 가장 널리 쓰인 방법입니다. 사람들이 강의노트를 인용하곤했죠.



  • 이 내용은 RMSProp에 (빨강색) Nesterv momentum을 추가한겁니다 (파랑색). Momentum = 관성. 즉 부화뇌동;하지 않고 상대적으로 차분하게 업데이트한다고 생각을 하시면 됩니다.


  • Adam은 최근에 가장 널리 사용되는 방법입니다. 보다시피 1st moment (s), 2nd moment (r)을 구하는 과정에서 관성(momentum)을 적용합니다. 
  • correct bias는 제가 잘 이해하지 못했습니다.


----------

김범수님 블로그에 더 잘 정리되어있으니 참고하셔요. 


1 comment: