아마 강화학습을 공부하는 사람이라면 Introduction to Reinforcement Learning이란 책은 거의 다 접해봤을 것이다. (무료로 제공되기도 하고, 참고로 번역본도 있어서 워낙 읽기가 쉬워졌다.) 사실 요새 유행하는 심층 강화학습을 이해하기 위해서는 기본적인 강화학습 이론에 대한 이해가 선행되어야 하고, 그 관점에서 보면 해당 책은 이론의 전개나 증명이 자세하게 다뤄진 거의 유일한 강화학습 책이 아닐까 싶다. 그런데 그렇다고 뭔가 강화학습 이론을 실제로 적용해보고자 하는 사람은 이 책에서 언급된 SARSA나 Q-learning 이론을 구현해볼려고 딱 보면 난감하게 느낄 수 있다. 그도 그럴 것이 이 책은 프로그래밍 책이 아닌 엄연한 강화학습 이론서이기 때문에 자세한 알고리즘은 pseu..
이전에 다뤘던 이유와 더불어서, 내가 강화학습의 재기에 흥미를 느꼈던 이유는 강화학습이 내가 사랑하는 두가지 영역의 교차점에서 동작하기 때문이다. 바로 머신러닝과 제어 분야 말이다. 이 교차점에 대해서 조금이라도 이해한다는 건 매우 신기한 일이다. 그리고 각각의 영역에서 사용되었던 기법들 역시 자주 사용할 수 있다. 제어는 잘 정의된 모델로부터 복잡한 행동을 설계하는 이론을 말하는데, 이에 비해 머신러닝은 데이터만 딸랑 있는 상태에서 복잡하고 모델이 정의되지 않은(model-free) 예측을 할 수 있다. 제어 이론의 핵심은 입력과 출력으로 이뤄진 하나의 dynamical system이라는 것이다. 이런 시스템은 현재 상태와 입력에 대해서 반응할 수 있는 내부 상태 변수(internal state)를 가..
헬리콥터한테 복잡한 기동을 할 수 있도록 가르치는데 머신러닝을 활용한다고 가정해보자. 위의 사진은 시간대별로 컴퓨터가 조종하는 헬리콥터가 엔진이 꺼지면서 착륙하기까지의 사진을 나타내고 있다. 이런 방식을 "자동회전식(autorotation)" 기동이라고 부른다. 이를 통해 헬리콥터의 엔진이 뭔가 예측하지 못한 사유로 인해 고장날 지라도 헬리콥터가 착륙할 수 있게끔 해준다. 인간 조종사는 교육과정 중 일환으로 이런 기동을 연습한다. 이제 해야할 목표는 학습 알고리즘을 사용해서 헬리콥터의 안정적인 착륙을 위해 T 경로를 따라서 헬리콥터가 비행하는 것이다. 강화학습(reinforcement learning)을 적용하기 위해서는, 모든 가능한 경로 T에 대해서 얼마나 좋은지를 평가할 수 있는 "보상 함수(rew..
- Total
- Today
- Yesterday
- Expression Blend 4
- arduino
- Distribution
- Pipeline
- reward
- bias
- windows 8
- Kinect for windows
- DepthStream
- Kinect SDK
- SketchFlow
- processing
- ColorStream
- Kinect
- 딥러닝
- Off-policy
- 파이썬
- ai
- Gan
- Windows Phone 7
- PowerPoint
- 강화학습
- End-To-End
- Variance
- TensorFlow Lite
- RL
- dynamic programming
- 한빛미디어
- Policy Gradient
- Offline RL
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |