tag:blogger.com,1999:blog-4459046286558634039.post6797047615530363010..comments2023-08-26T01:43:06.753-07:00Comments on 최근우 (Keunwoo Choi): 강화학습 튜토리알 - 인공 신경망으로 '퐁' 게임을 학습시키자 (Andrej Karpathy 포스트 번역)Keunwoo Choihttp://www.blogger.com/profile/10607982292169701777noreply@blogger.comBlogger8125tag:blogger.com,1999:blog-4459046286558634039.post-69990543016694836182016-06-29T07:00:47.360-07:002016-06-29T07:00:47.360-07:00답글 감사합니다.
discounted_epr 을 normalize 하는 부분이었습니다. ...답글 감사합니다. <br />discounted_epr 을 normalize 하는 부분이었습니다. <br />본문에서는 로그 확률을 썼다고 언급이되어있으며 예제코드에서는 dlogP 에 (y-aprob) 값을 썼더라구요 <br />만약 그냥 확률을 썼다면 sigmoid 미분하는 term 때문에 dP = (y-aprob)aprob(1-aprob) 이 들어갈텐데 수식상으로 왜 logP 를 쓰면 왜 수식이 간단해지는지 잘 모르겠습니다.<br />해당코드의 네트워크 forward 계산과 gradient 계산을 CPU 버전theano 로 해보려 했는데 너무 느려서 포기했습니다. 저에게는 batch 단위로 forward 하는거도 불가능하고 (한프레임의 결과가 피드백이 되어야만 하기때문에) gradient 구하는게 불가능하더라구요(discounted reward 를 구현하는게 불가능). <br />Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-4459046286558634039.post-53637517841683646222016-06-27T19:53:22.964-07:002016-06-27T19:53:22.964-07:00안녕하세요,
1. discounted..--> 정확히 어떤부분인가요?
2. rmsp...안녕하세요, <br />1. discounted..--> 정확히 어떤부분인가요?<br />2. rmsprop: 저는 RL을 잘 모르지만 그 부분은 supervised learning과 비슷할거같네요. rmsprop/adam/sgd + nesterov 등등 다들 두루두루 쓰이는데 뭐 하나가 제일 좋다고 말하기 어려운 상황입니다. <br />3. 리눅스를 설치하시고 심신의 안정을 찾으시길... 혹 안써보셨다면, 별로 어렵지 않으니 해보셔요. Keunwoo Choihttps://www.blogger.com/profile/10607982292169701777noreply@blogger.comtag:blogger.com,1999:blog-4459046286558634039.post-33491544826552019662016-06-27T15:18:15.297-07:002016-06-27T15:18:15.297-07:00감사합니다. 강화학습이 항상궁금했는데 핵심만 추린 코드를 보니 조금 와닿는거같습니다.
그런...감사합니다. 강화학습이 항상궁금했는데 핵심만 추린 코드를 보니 조금 와닿는거같습니다.<br />그런데 discounted episode reward 를 normalize 하는 부분이나, <br />learning 할때 rms prop 을 쓰는부분의 경우 시행착오를 거쳐 적용하게 된 부분인가요?<br />그리고 window 에서는 gym[atari] 자체가 안깔리더라구요 ㅠㅠ.Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-4459046286558634039.post-85174843818397680192016-06-11T17:26:58.923-07:002016-06-11T17:26:58.923-07:00잘읽었습니다. 감사합니다 잘읽었습니다. 감사합니다 Anonymoushttps://www.blogger.com/profile/17023564388717988277noreply@blogger.comtag:blogger.com,1999:blog-4459046286558634039.post-88109882613858124702016-06-09T19:56:41.380-07:002016-06-09T19:56:41.380-07:00감사합니다감사합니다Anonymoushttps://www.blogger.com/profile/03265390381295536405noreply@blogger.comtag:blogger.com,1999:blog-4459046286558634039.post-76242177197317882212016-06-06T06:39:19.609-07:002016-06-06T06:39:19.609-07:00좋은 글 감사합니다. 여러번 반복해서 읽어 봐야 할 것 같네요. 좋은 글 감사합니다. 여러번 반복해서 읽어 봐야 할 것 같네요. Paulohttps://www.blogger.com/profile/05184717244385098165noreply@blogger.comtag:blogger.com,1999:blog-4459046286558634039.post-4701737501471614052016-06-04T14:11:58.003-07:002016-06-04T14:11:58.003-07:00넵 감사합니다 :) 넵 감사합니다 :) Keunwoo Choihttps://www.blogger.com/profile/10607982292169701777noreply@blogger.comtag:blogger.com,1999:blog-4459046286558634039.post-87089907883975841332016-06-04T09:25:56.219-07:002016-06-04T09:25:56.219-07:00덕분에 좋은 글 잘 읽었습니다. 감사합니다.덕분에 좋은 글 잘 읽었습니다. 감사합니다.Anonymoushttps://www.blogger.com/profile/06071434411980035472noreply@blogger.com