'TD(0)' 태그의 글 목록

[RL] Introduction to Temporal Difference Learning

(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다) 이전 포스트에서는 Off-policy 방식의 Monte Carlo Prediction에 대해서 다뤘다. 일단 Monte Carlo의 특성상 policy에 대한 trajectory를 여러개 뽑아서 expectation을 취해야 한다. $$ v_{\pi}(s) \doteq \mathbb{E}_{\pi}[ \color{red}{G_t} | S_t=s] $$ 일단 위처럼 State value function을 구하기 위해서는 해당 state $s$에서의 total expected return $G_t$을 구해야 하고, 이때 Policy Evaluation에선 다음과 공식을 통해서 state val..

Study/AI 2019. 9. 6. 16:12

[RL] Temporal Difference Learning : TD(0)

이전에 다뤘던 Q-learning같은 방법들을 보면, 각 state에 대한 expected return들을 일종의 table 형식으로 관리하는 것을 확인할 수 있었다. Bellman Equation을 사용해서 우리는 나름의 각 state에 대한 $v_{\pi}(s)$ 를 구하거나, 각 state-action pair에 대한 $q_{\pi}(s, a)$를 구하고 매 step마다 table을 업데이트하면서 나름의 optimal policy를 찾으려고 노력할 것이다. 여기서 주어진 환경내에서 취할 action을 정의한 policy $\pi$에 대한 state value function $v_{\pi}(s)$ 를 구한다고 해보자. 강화학습의 특성상 우리는 미래에 얻을 수 있는 expected re..

Study/AI 2019. 7. 8. 01:28

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

chans_jupyter

TAG more

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

글 보관함

자신에 대한 고찰

티스토리툴바