[RL] SARSA : GPI with TD
(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다) 이전 포스트 중에 Generalized Policy Iteration (GPI)에 대해서 다뤘던 내용이 있다. GPI는 현재 policy \(\pi\)에 대한 state value function을 구하는 Policy Evaluation과 해당 state value function을 바탕으로 greedy action을 취함으로써 해당 policy를 개선시키는 Policy Improvement 과정으로 나뉘어져 있다. 그 포스트에서는 Monte Carlo를 사용한 GPI를 소개했었다. 그런데 이제 TD Learning을 살펴봤으니, Monte Carlo method가 Episode가 terminat..
Study/AI
2019. 9. 11. 15:30
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 딥러닝
- Expression Blend 4
- processing
- Distribution
- Windows Phone 7
- dynamic programming
- DepthStream
- Off-policy
- 강화학습
- Variance
- 파이썬
- Gan
- ai
- windows 8
- End-To-End
- PowerPoint
- Pipeline
- TensorFlow Lite
- reward
- SketchFlow
- Kinect for windows
- bias
- Policy Gradient
- Kinect SDK
- Kinect
- RL
- ColorStream
- Offline RL
- arduino
- 한빛미디어
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함