(본 글은 OpenAI Spinning Up 글을 개인적으로 정리한 글입니다. 원본) Part 1: Key Concepts in RL — Spinning Up documentation A state is a complete description of the state of the world. There is no information about the world which is hidden from the state. An observation is a partial description of a state, which may omit information. In deep RL, we almost always represent stat spinningup.openai.com RL을 다루면 가장 많이 나오..
강화학습에서 모델의 역할은 여전히 많이 논의가 되고 있다. policy gradient와 같이 model-free method(model 없는 상태에서 학습하는 방법)은 system을 관찰하고, 이전에 받았던 award와 state를 바탕으로 현재의 전략을 개선시킴으로써 optimal control problem을 푸는데 목적을 두고 있다. 수많은 학자들이 논의하고 있는 내용은 실제 물리 시스템을 시뮬레이션 하는데 필요한 수많은 복잡한 수식의 조합이 필요없이 선천적으로 학습할 수 있는 시스템에 대한 것이다. 또한 전체 system dynamic에 대해서 범용적으로 쓸 수 있는 모델을 학습시키는 것보다 특정 작업에 대한 정책을 찾는게 쉬운지 여부에 대해서도 논쟁을 하고 있다. 반대로 연속된(continuo..
우리가 처음으로 다뤄볼 강화학습 알고리즘은 Policy Gradient 이다. 사실 1993년에 Policy Gradient가 나쁜 아이디어로 찍혀서 나오지 못했다는 사실이 놀랍긴 하다. Policy Gradient는 어떠한 domain knowledge없이도 어떤 문제도 풀수 있게끔 프로그램을 좋게 튜닝하는데 도움을 주기 때문에 매력적인 알고리즘이다. 물론 어떤 알고리즘이든 이렇게 주장하려면 이렇게 주장하려면, 그 좋은 부분에 대해서 매우 일반적인 성향을 띄어야 한다. 실제로 살펴보면 알겠지만 policy gradient란 수학적 심볼과 공식으로 이뤄진 랜덤 탐색에 불과하다. 사실 이 내용은 많은 포스트를 할애해야 하기 때문에 미리 사과하고자 한다. Policy Gradient란 어떤 것에 대해서 깊게..
앞에서 다뤘던 두개 포스트에서는 강화학습에서 현재 진행되고 있는 연구 중 2개의 흐름에 대해서 소개했다. 첫번째는 prescriptive analytics에서 바라본 강화학습이었고, 두번째는 optimal control에 대한 내용이었다. 이번 포스트에서는 앞과 다르게 현업이나 논문 상에서 사람들이 강화학습을 어떻게 사용하는지에 대해 초점을 맞춰보고자 한다. 강화학습은 수사학(rhetoric)과는 조금 다른 측면이 있어서 각각의 다른 방법론과 알고리즘의 한계를 쉽게 이해시키고자 2개의 포스트에 나눠서 설명하려고 한다. 지금까지 지속되고 전례에 의해서 간신히 유지되어 오던 규칙들이 몇가지 있는데, 그 규칙에 대해서 윤곽을 그리고, control system 설계와 분석에서 연구가 진행되고 있는 그 연관성을..
- Total
- Today
- Yesterday
- Kinect
- windows 8
- DepthStream
- Pipeline
- ColorStream
- 한빛미디어
- RL
- PowerPoint
- 강화학습
- 파이썬
- processing
- Variance
- SketchFlow
- Distribution
- reward
- Policy Gradient
- Off-policy
- Windows Phone 7
- TensorFlow Lite
- End-To-End
- dynamic programming
- Kinect SDK
- Offline RL
- 딥러닝
- ai
- Kinect for windows
- Expression Blend 4
- arduino
- bias
- Gan
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |