[RL] Updates on Policy Gradients
지난번 nominal control에 대한 포스트 이후에, Pavel Christof로부터 메일을 받았었는데, 내용은 만약 Stochastic Gradient Descent를 Adam 으로 바꾼다면 Policy Gradient가 더 잘 동작한다는 것이었다. 실제로 내가 구현해보니까, 그가 말한 말이 맞았다. 한번 지난 Jupyter notebook과 함께 포스트 내용을 살펴보자. 우선 다른 딥러닝 패키지간의 dependency를 제거하기 위해서 adam을 순수 python으로 구현했다.( python으로 4줄로 구현했다.) 두번째로 지난번 코드에서 구현한 random search 부분에서 부적절하게 탐색방향을 잡는 것에 대한 버그를 수정했다. 이제 다시 median performance를 살펴보면 아래와..
Study/AI
2019. 3. 4. 22:54
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 딥러닝
- Kinect for windows
- bias
- reward
- Expression Blend 4
- RL
- PowerPoint
- Off-policy
- processing
- Windows Phone 7
- arduino
- Policy Gradient
- End-To-End
- Offline RL
- Distribution
- ai
- Kinect SDK
- DepthStream
- Gan
- ColorStream
- 파이썬
- 강화학습
- windows 8
- Pipeline
- TensorFlow Lite
- 한빛미디어
- SketchFlow
- Kinect
- Variance
- dynamic programming
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함