(본 글은 OpenAI Spinning Up 글을 개인적으로 정리한 글입니다. 원본) Part 1: Key Concepts in RL — Spinning Up documentation A state is a complete description of the state of the world. There is no information about the world which is hidden from the state. An observation is a partial description of a state, which may omit information. In deep RL, we almost always represent stat spinningup.openai.com RL을 다루면 가장 많이 나오..
이전에 다뤘던 이유와 더불어서, 내가 강화학습의 재기에 흥미를 느꼈던 이유는 강화학습이 내가 사랑하는 두가지 영역의 교차점에서 동작하기 때문이다. 바로 머신러닝과 제어 분야 말이다. 이 교차점에 대해서 조금이라도 이해한다는 건 매우 신기한 일이다. 그리고 각각의 영역에서 사용되었던 기법들 역시 자주 사용할 수 있다. 제어는 잘 정의된 모델로부터 복잡한 행동을 설계하는 이론을 말하는데, 이에 비해 머신러닝은 데이터만 딸랑 있는 상태에서 복잡하고 모델이 정의되지 않은(model-free) 예측을 할 수 있다. 제어 이론의 핵심은 입력과 출력으로 이뤄진 하나의 dynamical system이라는 것이다. 이런 시스템은 현재 상태와 입력에 대해서 반응할 수 있는 내부 상태 변수(internal state)를 가..
이번 포스팅에서 해볼 일은 시각적으로 State에 따른 상황 변화를 줄 예정입니다. 이전과 마찬가지 첨부파일을 열고 Expression Blend로 열어봅시다. 자 우선 Flowmap 상의 LiveChat을 지난 시간에 링크를 건 것처럼 Bindings 창에 드래그를 해봅시다 그럼 당연히 Bindings 페이지 상에도 LiveChat Component가 생성될 겁니다. 그런데 생각을 해보면 항상 LiveChat 창이 떠 있어야 하는걸까요? 좀만 생각해봅시다. 상담원이 24시간 있는 것도 아닐거고 그리고 항상 떠 있는 것보다는 필요한 사람한테만 뜨는 건 어떨까요? 그래서 등장하는 개념이 바로 State입니다. 이 개념은 Expression 상에서도 Window - State 창을 통해서 확인할 수 있습니다..
- Total
- Today
- Yesterday
- ai
- Off-policy
- arduino
- Windows Phone 7
- processing
- 강화학습
- Offline RL
- dynamic programming
- TensorFlow Lite
- RL
- windows 8
- Distribution
- SketchFlow
- Kinect SDK
- DepthStream
- Gan
- Variance
- ColorStream
- bias
- reward
- Expression Blend 4
- Policy Gradient
- 딥러닝
- Kinect for windows
- 한빛미디어
- End-To-End
- PowerPoint
- 파이썬
- Kinect
- Pipeline
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |