(해당 포스트는 UC Berkeley 에서 진행된 CS285: Deep Reinforcement Learning, Decision Making and Control를 요약한 내용이며, 그림들은 강의 장표에서 발췌한 내용입니다.) CS 285 GSI Yuqing Du yuqing_du@berkeley.edu Office Hours: Wednesday 10:30-11:30am (BWW 1206) rail.eecs.berkeley.edu The goal of reinforcement learning 이 강의 주제는 신경망을 활용한 강화학습을 다루는 것이다. 강화학습의 목표라고 하면 어떤 환경에서 잘 동작하는 policy를 찾는 것인데, Deep RL에서는 이 policy가 신경망으로 표현된다. 그래서 이 po..
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Deterministic Policy Gradient Algorithm (D.Silver et al, 2014) Abstract 이 논문에서는 Continuous Action을 수행할 수 있는 Deterministic Policy Gradient (DPG)에 대해서 소개하고 있다. DPG는 (보통 Q value function이라고 알고 있는) action-value function(\(Q^{\pi}(s, a)\) )의 expected gradient 형태로 되어 있어, 일반적으로 알고 있는 (Stochastic) Policy Gradient 보다 data efficiency 측면에서 이점이 있다. 대신 Deterministic하기 때문에..
(해당 글은 OpenAI Engineer인 Lilian Weng의 포스트 내용을 원저자 동의하에 번역한 내용입니다.) Policy Gradient Algorithms Abstract: In this post, we are going to look deep into policy gradient, why it works, and many new policy gradient algorithms proposed in recent years: vanilla policy gradient, actor-critic, off-policy actor-critic, A3C, A2C, DPG, DDPG, D4PG, MADDPG, TRPO, lilianweng.github.io Policy Gradient 강화학습의 목적은 o..
우리가 처음으로 다뤄볼 강화학습 알고리즘은 Policy Gradient 이다. 사실 1993년에 Policy Gradient가 나쁜 아이디어로 찍혀서 나오지 못했다는 사실이 놀랍긴 하다. Policy Gradient는 어떠한 domain knowledge없이도 어떤 문제도 풀수 있게끔 프로그램을 좋게 튜닝하는데 도움을 주기 때문에 매력적인 알고리즘이다. 물론 어떤 알고리즘이든 이렇게 주장하려면 이렇게 주장하려면, 그 좋은 부분에 대해서 매우 일반적인 성향을 띄어야 한다. 실제로 살펴보면 알겠지만 policy gradient란 수학적 심볼과 공식으로 이뤄진 랜덤 탐색에 불과하다. 사실 이 내용은 많은 포스트를 할애해야 하기 때문에 미리 사과하고자 한다. Policy Gradient란 어떤 것에 대해서 깊게..
- Total
- Today
- Yesterday
- 한빛미디어
- Kinect
- reward
- windows 8
- Pipeline
- bias
- Distribution
- 강화학습
- Windows Phone 7
- End-To-End
- Variance
- ai
- PowerPoint
- 파이썬
- 딥러닝
- Policy Gradient
- arduino
- TensorFlow Lite
- dynamic programming
- Gan
- Offline RL
- DepthStream
- Kinect SDK
- Expression Blend 4
- SketchFlow
- ColorStream
- Off-policy
- Kinect for windows
- RL
- processing
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |