음악/머신러닝
제프리 힌튼: 드롭아웃은 총 세 번에 걸쳐 깨닫게 되었습니다. 우선 2004년에 레드포드 닐이 저한테 이야기해준 내용입니다. 인간의 뇌의 용량이 이렇게 큰 이유는 어쩌면 뇌 안에 여러 모델이 있고 그 모델을 합치는 (ensemble) 것 때문일지도 모른다는 내용이었죠. 그 당시에는 그 이론이 현실적으로 너무 많은 하드웨어를 필요로 하기 때문에 비효율적이라고 생각했습니다. 그러다가 어느 순간 그 모델이 꼭 큰 모델이 아니라 전체 뉴런의 일부가 될 수도 있겠다는 생각을 했습니다. 그렇게 생각하면 신경 세포가 임의로 반응(spike)하는 것도 설명을 할 수가 있겠다구요.그러고 얼마 지나지 않아서 은행을 갈 일이 있었습니다. 그런데 은행을 갈때마다 창구 직원이 매번 바뀌더라구요. 직원에게 왜 그런지 물어보니 본인도 잘 모르지만 그런 순환이 자주 일어난다고 대답했습니다. 저는 아마도 은행에서 횡령같은 범죄를 일으키려면 여러 직원의 협동이 필요해서 그것을 막기 위한것이 아닌가하는 생각을 생각을 했습니다. 그리고 같은 논리로 계속 다른 뉴런의 부분집합을 제거하면 뉴런들의 음모 - 즉 과적합(overfitting)을 막을 수 있지 않을까 하는 생각을 했어요. 그래서 2004년에 이걸 대강 구현해봤습니다 (당시에 저를 지도해줄 사람이 없었죠). 당시엔 그렇게 잘 돌아가지가 않아서 l2-reguralisation이 더 나은것으로 결론을 내리고 잊고 있었습니다.그런데 2011년에 크리스토스 파파디미트리우가 토론토에서 강의하는걸 들었습니다. 강의 내용중에 생물의 2세 생산이 (두 유전자를 임의로 합치는 과정에서) co-adaptation을 막는 의미를 갖는다는 내용이 있었습니다. 어쩌면 강의의 촛점은 약간 다른 것 이었을 수도 있어요. 아무튼 저는 그렇게 받아들였습니다. 그리고 뉴런의 일부를 제거하는 것과 본질적으로 같은 내용이었죠. 그래서 이번엔 대학원생들과 함께 좀 더 열심히 구현을 해봤고 결과적으로 이 이론이 잘 작동한다는 것을 밝혀냈습니다.
No comments:
Post a Comment