[RL] CS285- Supervised Learning of Behaviors (2)
이전 포스트에서 Data Aggregation을 통해 Imitation learning을 수행하는데 있어 사람의 힘이 필요하다는 것을 언급했었고, 그에 대한 알고리즘은 다음과 같았다. 1. 인간으로부터 뽑은 데이터 \(D=\{o_{1}, a_{1}, ... , o_{N}, a_{N}\}\)을 바탕으로 \(\pi_{\theta}(a_{t}|o_{t})\)를 학습시킨다. 2. policy로부터 나온 데이터 \(D_{\pi} = \{o_{1}, ..., o_{M} \}\)을 구하기 위해 \(\pi_{\theta}(a_{t}|o_{t})\)를 돌려본다. 3. \(D_{\pi}\)에 대한 action \(a_{t}\)의 라벨링을 인간이 하게 한다. 4. 맨처음에 있던 데이터와 새로 policy에 의해서 생성된 데..
Study/AI
2018. 10. 21. 23:07
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- Pipeline
- Kinect
- 강화학습
- arduino
- Expression Blend 4
- DepthStream
- reward
- SketchFlow
- RL
- processing
- TensorFlow Lite
- Windows Phone 7
- windows 8
- 딥러닝
- Policy Gradient
- Kinect for windows
- Distribution
- Off-policy
- Variance
- 파이썬
- Python
- 한빛미디어
- Kinect SDK
- dynamic programming
- PowerPoint
- bias
- Gan
- End-To-End
- ColorStream
- Offline RL
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
글 보관함