[RL] Temporal Difference Learning : TD(0)
이전에 다뤘던 Q-learning같은 방법들을 보면, 각 state에 대한 expected return들을 일종의 table 형식으로 관리하는 것을 확인할 수 있었다. Bellman Equation을 사용해서 우리는 나름의 각 state에 대한 \(v_{\pi}(s)\) 를 구하거나, 각 state-action pair에 대한 \(q_{\pi}(s, a)\)를 구하고 매 step마다 table을 업데이트하면서 나름의 optimal policy를 찾으려고 노력할 것이다. 여기서 주어진 환경내에서 취할 action을 정의한 policy \(\pi\)에 대한 state value function \(v_{\pi}(s)\) 를 구한다고 해보자. 강화학습의 특성상 우리는 미래에 얻을 수 있는 expected re..
Study/AI
2019. 7. 8. 01:28
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- TensorFlow Lite
- arduino
- Windows Phone 7
- Kinect
- PowerPoint
- Distribution
- processing
- Gan
- 파이썬
- windows 8
- Off-policy
- SketchFlow
- Variance
- ColorStream
- 한빛미디어
- Policy Gradient
- reward
- Pipeline
- 딥러닝
- RL
- DepthStream
- ai
- Kinect SDK
- bias
- dynamic programming
- Offline RL
- Kinect for windows
- 강화학습
- Expression Blend 4
- End-To-End
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함