[RL] CS285 - Supervised Learning of Behaviors (1)
우선 강화학습을 하기전에 notation에 대한 정의가 필요해서 정리해본다. 강의에서는 강화학습을 바로 다루기보다는 조금 익숙한 Supervised Learning에 맞춰서 필요한 구문들을 설명해놨다. 그래서 제일 처음 다룬 내용은 다음과 같았다. 사실 위의 그림을 기존에 우리가 supervised learning이라고 알고 있던 문제를 강화학습 notation으로 변경해서 표현한 예시이다. 일반적인 Supervised learning의 process는 위와 같이 진행된다. 먼저 다들 아는 내용이겠지만 supervised learning은 정답지가 있는 상태에서 학습을..
Study/AI
2018. 10. 17. 22:58
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- RL
- Kinect for windows
- Distribution
- 딥러닝
- End-To-End
- DepthStream
- arduino
- Offline RL
- TensorFlow Lite
- Kinect SDK
- bias
- SketchFlow
- ColorStream
- PowerPoint
- 파이썬
- processing
- Policy Gradient
- Windows Phone 7
- Variance
- Python
- windows 8
- reward
- Expression Blend 4
- Kinect
- Gan
- Off-policy
- dynamic programming
- 강화학습
- Pipeline
- 한빛미디어
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
글 보관함