Comments on 최근우 (Keunwoo Choi): 강화학습 튜토리알 - 인공 신경망으로 '퐁' 게임을 학습시키자 (Andrej Karpathy 포스트 번역)

Cool and I have a nifty offer you: How Much Is Hom...

2024-11-26T04:59:25.562-08:00

Cool and I have a nifty offer you: How Much Is Home Renovation house renovation shows

답글 감사합니다. discounted_epr 을 normalize 하는 부분이었습니다. ...

2016-06-29T07:00:47.360-07:00

답글 감사합니다.
discounted_epr 을 normalize 하는 부분이었습니다.
본문에서는 로그 확률을 썼다고 언급이되어있으며 예제코드에서는 dlogP 에 (y-aprob) 값을 썼더라구요
만약 그냥 확률을 썼다면 sigmoid 미분하는 term 때문에 dP = (y-aprob)aprob(1-aprob) 이 들어갈텐데 수식상으로 왜 logP 를 쓰면 왜 수식이 간단해지는지 잘 모르겠습니다.
해당코드의 네트워크 forward 계산과 gradient 계산을 CPU 버전theano 로 해보려 했는데 너무 느려서 포기했습니다. 저에게는 batch 단위로 forward 하는거도 불가능하고 (한프레임의 결과가 피드백이 되어야만 하기때문에) gradient 구하는게 불가능하더라구요(discounted reward 를 구현하는게 불가능).

안녕하세요, 1. discounted..--> 정확히 어떤부분인가요? 2. rmsp...

2016-06-27T19:53:22.964-07:00

안녕하세요,
1. discounted..--> 정확히 어떤부분인가요?
2. rmsprop: 저는 RL을 잘 모르지만 그 부분은 supervised learning과 비슷할거같네요. rmsprop/adam/sgd + nesterov 등등 다들 두루두루 쓰이는데 뭐 하나가 제일 좋다고 말하기 어려운 상황입니다.
3. 리눅스를 설치하시고 심신의 안정을 찾으시길... 혹 안써보셨다면, 별로 어렵지 않으니 해보셔요.

감사합니다. 강화학습이 항상궁금했는데 핵심만 추린 코드를 보니 조금 와닿는거같습니다. 그런...

2016-06-27T15:18:15.297-07:00

감사합니다. 강화학습이 항상궁금했는데 핵심만 추린 코드를 보니 조금 와닿는거같습니다.
그런데 discounted episode reward 를 normalize 하는 부분이나,
learning 할때 rms prop 을 쓰는부분의 경우 시행착오를 거쳐 적용하게 된 부분인가요?
그리고 window 에서는 gym[atari] 자체가 안깔리더라구요 ㅠㅠ.

잘읽었습니다. 감사합니다

2016-06-11T17:26:58.923-07:00

잘읽었습니다. 감사합니다

감사합니다

2016-06-09T19:56:41.380-07:00

감사합니다

좋은 글 감사합니다. 여러번 반복해서 읽어 봐야 할 것 같네요.

2016-06-06T06:39:19.609-07:00

좋은 글 감사합니다. 여러번 반복해서 읽어 봐야 할 것 같네요.

넵 감사합니다 :)

2016-06-04T14:11:58.003-07:00

넵 감사합니다 :)

덕분에 좋은 글 잘 읽었습니다. 감사합니다.

2016-06-04T09:25:56.219-07:00

덕분에 좋은 글 잘 읽었습니다. 감사합니다.