[RL] Temporal Difference Learning : TD(0)
이전에 다뤘던 Q-learning같은 방법들을 보면, 각 state에 대한 expected return들을 일종의 table 형식으로 관리하는 것을 확인할 수 있었다. Bellman Equation을 사용해서 우리는 나름의 각 state에 대한 \(v_{\pi}(s)\) 를 구하거나, 각 state-action pair에 대한 \(q_{\pi}(s, a)\)를 구하고 매 step마다 table을 업데이트하면서 나름의 optimal policy를 찾으려고 노력할 것이다. 여기서 주어진 환경내에서 취할 action을 정의한 policy \(\pi\)에 대한 state value function \(v_{\pi}(s)\) 를 구한다고 해보자. 강화학습의 특성상 우리는 미래에 얻을 수 있는 expected re..
Study/AI
2019. 7. 8. 01:28
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- Distribution
- SketchFlow
- PowerPoint
- ai
- Offline RL
- Kinect for windows
- End-To-End
- 파이썬
- Pipeline
- Policy Gradient
- Windows Phone 7
- bias
- Expression Blend 4
- processing
- Variance
- DepthStream
- arduino
- TensorFlow Lite
- 강화학습
- reward
- Kinect
- 딥러닝
- RL
- windows 8
- 한빛미디어
- Kinect SDK
- ColorStream
- dynamic programming
- Off-policy
- Gan
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함