[RL] Lost Horizons
이번 글은 cost와 state transition을 알지 못하는 상태에서의 optimal control을 위한 강화학습의 관점을 설명하는 것에서 시작해보고자 한다. 모두들 알다시피 Dynamic Programming을 통해서 optimal solution을 구할 수 있다. 하지만, 현재의 모델이나 cost를 모를 때나, 전체 dynamic program를 수정하기 어려운 상황이라면, RL 문제를 풀기 위해서는 approximation(근사) 기법에 의존해야 한다. 물론, dynamic program을 근사하는 것은 매우 어려운 부분이다. Bertsekas는 최근 "dynamic programming and optimal control"의 개정판을 출간했으며, 해당 책 2권의 6장을 살펴보면 dynami..
Study/AI
2019. 4. 17. 19:04
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- Offline RL
- dynamic programming
- Gan
- ai
- 한빛미디어
- Distribution
- arduino
- 딥러닝
- Expression Blend 4
- windows 8
- Variance
- SketchFlow
- 강화학습
- Kinect for windows
- Kinect
- bias
- Off-policy
- Kinect SDK
- processing
- DepthStream
- TensorFlow Lite
- 파이썬
- Policy Gradient
- Windows Phone 7
- PowerPoint
- End-To-End
- RL
- reward
- Pipeline
- ColorStream
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함