[RL] Dealing with inaccurate models
(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다) 이전 포스트들을 통해서 얘기한 내용은 결국 model을 활용해서 planning을 할 수 있어서 sampling efficiency도 높이고, 효율적으로 policy를 학습할 수 있다고 했었다. 여기서 던질 수 있는 질문은 "그럼 정확하지 않은(inaccurate) model로 planning 등을 수행하면 policy를 improve할 수 있을까?" 이다. 예를 들어서 앞에서 다뤘던 maze example 상에서도 policy를 improve시키기 위해서는 가능한한 많은 state와 action을 취해서 얻은 value function이 있어야 하는데, 아무래도 exploration도 하고 중간..
Study/AI
2019. 10. 8. 18:41
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- reward
- windows 8
- Windows Phone 7
- Distribution
- dynamic programming
- 딥러닝
- arduino
- Off-policy
- Pipeline
- Offline RL
- Kinect
- processing
- TensorFlow Lite
- DepthStream
- Kinect for windows
- Variance
- RL
- End-To-End
- PowerPoint
- ai
- Policy Gradient
- SketchFlow
- 한빛미디어
- 파이썬
- bias
- ColorStream
- Gan
- Kinect SDK
- Expression Blend 4
- 강화학습
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함