[RL] Dealing with inaccurate models
(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다) 이전 포스트들을 통해서 얘기한 내용은 결국 model을 활용해서 planning을 할 수 있어서 sampling efficiency도 높이고, 효율적으로 policy를 학습할 수 있다고 했었다. 여기서 던질 수 있는 질문은 "그럼 정확하지 않은(inaccurate) model로 planning 등을 수행하면 policy를 improve할 수 있을까?" 이다. 예를 들어서 앞에서 다뤘던 maze example 상에서도 policy를 improve시키기 위해서는 가능한한 많은 state와 action을 취해서 얻은 value function이 있어야 하는데, 아무래도 exploration도 하고 중간..
Study/AI
2019. 10. 8. 18:41
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- dynamic programming
- Pipeline
- Kinect
- Variance
- 한빛미디어
- Expression Blend 4
- arduino
- PowerPoint
- DepthStream
- Offline RL
- RL
- Windows Phone 7
- Policy Gradient
- bias
- windows 8
- ColorStream
- processing
- 딥러닝
- reward
- Kinect SDK
- Distribution
- 파이썬
- 강화학습
- SketchFlow
- ai
- Kinect for windows
- Off-policy
- Gan
- TensorFlow Lite
- End-To-End
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함