[RL] Dealing with inaccurate models
(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다) 이전 포스트들을 통해서 얘기한 내용은 결국 model을 활용해서 planning을 할 수 있어서 sampling efficiency도 높이고, 효율적으로 policy를 학습할 수 있다고 했었다. 여기서 던질 수 있는 질문은 "그럼 정확하지 않은(inaccurate) model로 planning 등을 수행하면 policy를 improve할 수 있을까?" 이다. 예를 들어서 앞에서 다뤘던 maze example 상에서도 policy를 improve시키기 위해서는 가능한한 많은 state와 action을 취해서 얻은 value function이 있어야 하는데, 아무래도 exploration도 하고 중간..
Study/AI
2019. 10. 8. 18:41
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- processing
- 딥러닝
- ColorStream
- Kinect
- PowerPoint
- windows 8
- Policy Gradient
- Windows Phone 7
- Gan
- 강화학습
- Offline RL
- ai
- arduino
- bias
- Kinect SDK
- reward
- DepthStream
- End-To-End
- 한빛미디어
- Off-policy
- SketchFlow
- Expression Blend 4
- Pipeline
- Variance
- Kinect for windows
- RL
- 파이썬
- dynamic programming
- TensorFlow Lite
- Distribution
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함