[RL] Temporal Difference Learning : TD(0)
이전에 다뤘던 Q-learning같은 방법들을 보면, 각 state에 대한 expected return들을 일종의 table 형식으로 관리하는 것을 확인할 수 있었다. Bellman Equation을 사용해서 우리는 나름의 각 state에 대한 \(v_{\pi}(s)\) 를 구하거나, 각 state-action pair에 대한 \(q_{\pi}(s, a)\)를 구하고 매 step마다 table을 업데이트하면서 나름의 optimal policy를 찾으려고 노력할 것이다. 여기서 주어진 환경내에서 취할 action을 정의한 policy \(\pi\)에 대한 state value function \(v_{\pi}(s)\) 를 구한다고 해보자. 강화학습의 특성상 우리는 미래에 얻을 수 있는 expected re..
Study/AI
2019. 7. 8. 01:28
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- Kinect for windows
- RL
- Variance
- processing
- DepthStream
- reward
- Windows Phone 7
- bias
- Pipeline
- End-To-End
- 파이썬
- 딥러닝
- 한빛미디어
- Policy Gradient
- SketchFlow
- arduino
- Distribution
- Expression Blend 4
- TensorFlow Lite
- Offline RL
- PowerPoint
- Kinect
- Kinect SDK
- dynamic programming
- Off-policy
- ai
- windows 8
- ColorStream
- Gan
- 강화학습
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함