(해당 포스트는 UC Berkeley 에서 진행된 CS285: Deep Reinforcement Learning, Decision Making and Control를 요약한 내용이며, 그림들은 강의 장표에서 발췌한 내용입니다.) CS 285 GSI Yuqing Du yuqing_du@berkeley.edu Office Hours: Wednesday 10:30-11:30am (BWW 1206) rail.eecs.berkeley.edu Reducing variance 이전 포스트에서 소개했다시피, policy gradient 알고리즘은 high variance로 인해서 practical problem에 적용하기 어려웠다. 그러면 이 variance를 줄일 수 있는 방법이 있을까? 다시 policy gradi..
( 본 글은 OpenAI Spinning Up을 개인적으로 정리한 글입니다. 원본) Part 3: Intro to Policy Optimization — Spinning Up documentation In this section, we’ll discuss the mathematical foundations of policy optimization algorithms, and connect the material to sample code. We will cover three key results in the theory of policy gradients: In the end, we’ll tie those results together and desc spinningup.openai.com 이번 글에서는..
- Total
- Today
- Yesterday
- 딥러닝
- 파이썬
- Off-policy
- TensorFlow Lite
- PowerPoint
- RL
- reward
- 한빛미디어
- ai
- 강화학습
- Windows Phone 7
- Kinect for windows
- End-To-End
- Policy Gradient
- Offline RL
- Kinect SDK
- ColorStream
- Pipeline
- Expression Blend 4
- processing
- arduino
- windows 8
- DepthStream
- Variance
- Gan
- bias
- dynamic programming
- SketchFlow
- Distribution
- Kinect
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |