
(해당 포스트에서 언급되는 "파이썬 자료구조와 알고리즘" 책은 한빛미디어로부터 제공받았고, 이에 대한 서평을 쓴 것 임을 알려드립니다.) 시중 서점에서도 컴퓨터 관련 도서 섹션을 보면 파이썬 관련 서적들이 많이 있다. 몇년전엔 자바나 C 관련 서적이 차지하는 비중이 대부분을 차지했었던거 같은데, 인공지능같은 분야가 인기를 끌면서 쉽게 배울 수 있는 파이썬에 대해서 다룬 책들이 많이 나온 것 같다. 물론 서점에서도 관련 책을 많이 볼 수도 있지만, 인터넷에서도 무료로 공개된 파이썬 관련 강의나 책들도 많이 등장하고 있다. Coursera나 edX에서도 유명한 대학교에서 제공하는 입문 강좌들도 보면 파이썬을 활용해서 컴퓨터의 구조나 동작원리, 알고리즘 등을 설명하는 내용들이 많이 담겨져 있다. 사실 오늘 소..

(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다) 이전 포스트에서는 Off-policy 방식의 Monte Carlo Prediction에 대해서 다뤘다. 일단 Monte Carlo의 특성상 policy에 대한 trajectory를 여러개 뽑아서 expectation을 취해야 한다. $$ v_{\pi}(s) \doteq \mathbb{E}_{\pi}[ \color{red}{G_t} | S_t=s] $$ 일단 위처럼 State value function을 구하기 위해서는 해당 state \(s\)에서의 total expected return \(G_t\)을 구해야 하고, 이때 Policy Evaluation에선 다음과 공식을 통해서 state val..
이번 글은 cost와 state transition을 알지 못하는 상태에서의 optimal control을 위한 강화학습의 관점을 설명하는 것에서 시작해보고자 한다. 모두들 알다시피 Dynamic Programming을 통해서 optimal solution을 구할 수 있다. 하지만, 현재의 모델이나 cost를 모를 때나, 전체 dynamic program를 수정하기 어려운 상황이라면, RL 문제를 풀기 위해서는 approximation(근사) 기법에 의존해야 한다. 물론, dynamic program을 근사하는 것은 매우 어려운 부분이다. Bertsekas는 최근 "dynamic programming and optimal control"의 개정판을 출간했으며, 해당 책 2권의 6장을 살펴보면 dynami..
강화학습에서 모델의 역할은 여전히 많이 논의가 되고 있다. policy gradient와 같이 model-free method(model 없는 상태에서 학습하는 방법)은 system을 관찰하고, 이전에 받았던 award와 state를 바탕으로 현재의 전략을 개선시킴으로써 optimal control problem을 푸는데 목적을 두고 있다. 수많은 학자들이 논의하고 있는 내용은 실제 물리 시스템을 시뮬레이션 하는데 필요한 수많은 복잡한 수식의 조합이 필요없이 선천적으로 학습할 수 있는 시스템에 대한 것이다. 또한 전체 system dynamic에 대해서 범용적으로 쓸 수 있는 모델을 학습시키는 것보다 특정 작업에 대한 정책을 찾는게 쉬운지 여부에 대해서도 논쟁을 하고 있다. 반대로 연속된(continuo..
dynamic를 모르는 상태에서의 optimal control을 이해하고, 강화학습을 전개하는 입장에서 관점을 제공해주는 엄청 심플한 baseline이 있을까? 일단 매우 일반화가 된 예에서 시작해보자. 일반적으로 알려진 optimal한 제어 문제는 다음 형태를 띈다:\( \text{maximize}_{u_{t}} \;\; \mathbb E_{e_{t}}[\sum_{t=0}^{N}R_{t}[x_{t}, u_{t}]] \) \( \text{subject to} \;\; x_{t+1} = f(x_{t}, u_{t}, e_{t}) \) \( (x_{0} \; \text{given}) \) 여기서 \(x_{t}\)는 system의 state이고, \(u_{t}\)는 제어 action이고, \(e_{t}\)는 랜..
- Total
- Today
- Yesterday
- windows 8
- bias
- ai
- Kinect for windows
- Kinect
- 강화학습
- Offline RL
- Policy Gradient
- DepthStream
- Distribution
- 딥러닝
- ColorStream
- 한빛미디어
- dynamic programming
- processing
- PowerPoint
- TensorFlow Lite
- 파이썬
- Kinect SDK
- Expression Blend 4
- Off-policy
- RL
- Pipeline
- arduino
- SketchFlow
- Variance
- Gan
- reward
- Windows Phone 7
- End-To-End
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |