우리가 처음으로 다뤄볼 강화학습 알고리즘은 Policy Gradient 이다. 사실 1993년에 Policy Gradient가 나쁜 아이디어로 찍혀서 나오지 못했다는 사실이 놀랍긴 하다. Policy Gradient는 어떠한 domain knowledge없이도 어떤 문제도 풀수 있게끔 프로그램을 좋게 튜닝하는데 도움을 주기 때문에 매력적인 알고리즘이다. 물론 어떤 알고리즘이든 이렇게 주장하려면 이렇게 주장하려면, 그 좋은 부분에 대해서 매우 일반적인 성향을 띄어야 한다. 실제로 살펴보면 알겠지만 policy gradient란 수학적 심볼과 공식으로 이뤄진 랜덤 탐색에 불과하다. 사실 이 내용은 많은 포스트를 할애해야 하기 때문에 미리 사과하고자 한다. Policy Gradient란 어떤 것에 대해서 깊게..
앞에서 다뤘던 두개 포스트에서는 강화학습에서 현재 진행되고 있는 연구 중 2개의 흐름에 대해서 소개했다. 첫번째는 prescriptive analytics에서 바라본 강화학습이었고, 두번째는 optimal control에 대한 내용이었다. 이번 포스트에서는 앞과 다르게 현업이나 논문 상에서 사람들이 강화학습을 어떻게 사용하는지에 대해 초점을 맞춰보고자 한다. 강화학습은 수사학(rhetoric)과는 조금 다른 측면이 있어서 각각의 다른 방법론과 알고리즘의 한계를 쉽게 이해시키고자 2개의 포스트에 나눠서 설명하려고 한다. 지금까지 지속되고 전례에 의해서 간신히 유지되어 오던 규칙들이 몇가지 있는데, 그 규칙에 대해서 윤곽을 그리고, control system 설계와 분석에서 연구가 진행되고 있는 그 연관성을..
- Total
- Today
- Yesterday
- reward
- windows 8
- Off-policy
- PowerPoint
- Policy Gradient
- 강화학습
- RL
- processing
- dynamic programming
- Kinect for windows
- bias
- SketchFlow
- ColorStream
- TensorFlow Lite
- DepthStream
- 딥러닝
- 한빛미디어
- Gan
- Offline RL
- Variance
- Pipeline
- 파이썬
- Kinect
- Windows Phone 7
- Expression Blend 4
- Distribution
- Kinect SDK
- ai
- End-To-End
- arduino
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |