[RL] The Objective for On-policy Prediction
(해당 포스트는 Coursera의 Prediction and Control with Function Approximation의 강의 요약본입니다) 이전 포스트를 통해서 기존의 tabular method가 아닌 Function Approximation으로 value function을 정의하는 방법을 대략적으로 설명했다. 일단 뭐가 되던 간에 우리가 만들 value function은 각 state에 대한 value function이 차별성을 잘 띄고 있어야 하고(high discrimination), 전체 state에 대한 일반화도 잘되어야 한다.(high generalization) 그렇게 해서 어떤 linear value function \( \hat{v}(s, \mathbf{w})\) 을 만들었다고 가..
Study/AI
2019. 11. 11. 11:51
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- ai
- dynamic programming
- Pipeline
- arduino
- ColorStream
- 파이썬
- bias
- Kinect
- DepthStream
- Gan
- 한빛미디어
- Kinect for windows
- Kinect SDK
- processing
- Policy Gradient
- End-To-End
- Expression Blend 4
- Distribution
- SketchFlow
- Windows Phone 7
- Off-policy
- Offline RL
- Variance
- 강화학습
- reward
- windows 8
- 딥러닝
- RL
- TensorFlow Lite
- PowerPoint
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함