model-free 설명을 마치기 전에 다시 Linearization Principle에 대해서 살펴보자. 우리는 간단한 선형성 문제에서 random search도 잘 동작하는 것을 확인했고, 어쩔 때는 Policy Gradient같은 강화학습보다 더 잘 동작하는 것도 보았다. 그러면 뭔가 어려운 문제를 풀 때 Random Search로 해결해야 할까? 미리 말하자면, 아니다. 그래도 계속 읽어봐라! 이제 강화학습 커뮤니티에서 흥미있는 문제에 random search를 적용해보자. Deep RL 커뮤니티에서는 OpenAI에서 관리되고, MuJoCo 시뮬레이터를 기반으로 하는, 일종의 benchmark에 많은 시간을 할애하고 있다. 여기서 optimal control problem이란 다리가 달린 로봇을 ..
앞에서 다뤘던 두개 포스트에서는 강화학습에서 현재 진행되고 있는 연구 중 2개의 흐름에 대해서 소개했다. 첫번째는 prescriptive analytics에서 바라본 강화학습이었고, 두번째는 optimal control에 대한 내용이었다. 이번 포스트에서는 앞과 다르게 현업이나 논문 상에서 사람들이 강화학습을 어떻게 사용하는지에 대해 초점을 맞춰보고자 한다. 강화학습은 수사학(rhetoric)과는 조금 다른 측면이 있어서 각각의 다른 방법론과 알고리즘의 한계를 쉽게 이해시키고자 2개의 포스트에 나눠서 설명하려고 한다. 지금까지 지속되고 전례에 의해서 간신히 유지되어 오던 규칙들이 몇가지 있는데, 그 규칙에 대해서 윤곽을 그리고, control system 설계와 분석에서 연구가 진행되고 있는 그 연관성을..
이전에 다뤘던 이유와 더불어서, 내가 강화학습의 재기에 흥미를 느꼈던 이유는 강화학습이 내가 사랑하는 두가지 영역의 교차점에서 동작하기 때문이다. 바로 머신러닝과 제어 분야 말이다. 이 교차점에 대해서 조금이라도 이해한다는 건 매우 신기한 일이다. 그리고 각각의 영역에서 사용되었던 기법들 역시 자주 사용할 수 있다. 제어는 잘 정의된 모델로부터 복잡한 행동을 설계하는 이론을 말하는데, 이에 비해 머신러닝은 데이터만 딸랑 있는 상태에서 복잡하고 모델이 정의되지 않은(model-free) 예측을 할 수 있다. 제어 이론의 핵심은 입력과 출력으로 이뤄진 하나의 dynamical system이라는 것이다. 이런 시스템은 현재 상태와 입력에 대해서 반응할 수 있는 내부 상태 변수(internal state)를 가..
- Total
- Today
- Yesterday
- Offline RL
- TensorFlow Lite
- arduino
- Kinect
- Distribution
- 한빛미디어
- DepthStream
- Kinect for windows
- windows 8
- ColorStream
- Windows Phone 7
- bias
- RL
- processing
- reward
- PowerPoint
- Off-policy
- 강화학습
- Kinect SDK
- Expression Blend 4
- Policy Gradient
- Gan
- dynamic programming
- 딥러닝
- End-To-End
- ai
- SketchFlow
- Variance
- Pipeline
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |