'2018/10/21 글 목록

[RL] CS285- Supervised Learning of Behaviors (2)

이전 포스트에서 Data Aggregation을 통해 Imitation learning을 수행하는데 있어 사람의 힘이 필요하다는 것을 언급했었고, 그에 대한 알고리즘은 다음과 같았다. 1. 인간으로부터 뽑은 데이터 \(D=\{o_{1}, a_{1}, ... , o_{N}, a_{N}\}\)을 바탕으로 \(\pi_{\theta}(a_{t}|o_{t})\)를 학습시킨다. 2. policy로부터 나온 데이터 \(D_{\pi} = \{o_{1}, ..., o_{M} \}\)을 구하기 위해 \(\pi_{\theta}(a_{t}|o_{t})\)를 돌려본다. 3. \(D_{\pi}\)에 대한 action \(a_{t}\)의 라벨링을 인간이 하게 한다. 4. 맨처음에 있던 데이터와 새로 policy에 의해서 생성된 데..

Study/AI 2018. 10. 21. 23:07

이전 1 다음

이전 다음

공지사항

2015년은 조금더 열심히 해보려고 합니다.
[2014.04.10] 드리는 말씀
[Notice] 블로그에 오신 분들께 드리는 ⋯
[Public] Profile - update⋯

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

chans_jupyter

TAG more

« 2018/10 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

자신에 대한 고찰

티스토리툴바