(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Deterministic Policy Gradient Algorithm (D.Silver et al, 2014) Abstract 이 논문에서는 Continuous Action을 수행할 수 있는 Deterministic Policy Gradient (DPG)에 대해서 소개하고 있다. DPG는 (보통 Q value function이라고 알고 있는) action-value function(\(Q^{\pi}(s, a)\) )의 expected gradient 형태로 되어 있어, 일반적으로 알고 있는 (Stochastic) Policy Gradient 보다 data efficiency 측면에서 이점이 있다. 대신 Deterministic하기 때문에..
(해당 글은 OpenAI Engineer인 Lilian Weng의 포스트 내용을 원저자 동의하에 번역한 내용입니다.) Policy Gradient Algorithms Abstract: In this post, we are going to look deep into policy gradient, why it works, and many new policy gradient algorithms proposed in recent years: vanilla policy gradient, actor-critic, off-policy actor-critic, A3C, A2C, DPG, DDPG, D4PG, MADDPG, TRPO, lilianweng.github.io Policy Gradient 강화학습의 목적은 o..
- Total
- Today
- Yesterday
- Off-policy
- DepthStream
- Kinect SDK
- SketchFlow
- 파이썬
- Windows Phone 7
- Kinect for windows
- arduino
- 한빛미디어
- Gan
- Variance
- ColorStream
- Policy Gradient
- Kinect
- TensorFlow Lite
- PowerPoint
- Offline RL
- 강화학습
- 딥러닝
- End-To-End
- RL
- reward
- windows 8
- ai
- processing
- Expression Blend 4
- Pipeline
- Distribution
- dynamic programming
- bias
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |