티스토리 뷰
강화학습을 다루다보면 근본적으로 environment의 특성에 대해서 이해할 필요가 있다. 그 중에서도 많이 나오는 내용이 해당 env가 Fully Observable 이냐 Partially Observable이냐 를 정의하는 것이다.
우선 Observability라는 개념은 Dynamic Control System 이론에서 나온 개념인데, 위키피디아에 정의된 내용을 그대로 가져오면, 시스템의 내부 상태가 외부 출력에 대한 지식으로부터 얼마나 잘 추론될 수 있는지에 대한 척도를 말한다. 다시 말해서 출력만 가지고 시스템 상태를 파악할 수 있느냐를 나타내는 것이다.
Fully Observable이라는 말은 출력된 결과만 가지고도 내부 state를 모두 추론할 수 있는 것을 의미한다. 강화학습 notation으로 표현하면 action을 행하는 agent가 해당 environment와 관련된, 또는 action에 의해서 영향을 받는 변수들을 모두 관찰할 수 있는 것이다. 이를 활용하여 시스템의 내부 구조도 이해할 수 있기 때문에 굳이 memory를 가지고 있지 않더라도 Optimal Decision making이 가능하다. 예를 들자면 체스 게임 같은 경우는 한번 판이 정해진 경우, 각각의 말이 움직이는 경우와 각 말이 움직일 수 있는 경로에 대해서 agent가 인지할 수 있기 때문에 Fully Observable하다고 표현할 수 있다.
반면, Partially Observable은 Fully Observable과 다르게 받은 출력만 가지고 내부 state를 일부만 추론할 수 있다. 그렇기 때문에 Optimal Decision making 시에도 과거의 데이터를 기반으로 action을 결정하기 때문에 내부적으로 memory를 가져야 한다는 특징이 있다. 포커 게임 같은 경우는 보통 판이 열렸을 때 상대방한테 보여지는 패도 있고, 안 보여지는 패도 있기 때문에 안 보여진 패에 대한 state를 agent 인지할 방법이 없다. 그렇기 때문에 Partially Observable의 대표적인 예로 들고 있다.
'Study > AI' 카테고리의 다른 글
[RL] Make It Happen (0) | 2019.02.14 |
---|---|
[ML] Board Game Review Prediction (0) | 2019.02.07 |
[RL] mujoco_py 실행시 ERROR: GLEW initalization error: Missing GL version 해결 (0) | 2018.10.24 |
[RL] CS285- Supervised Learning of Behaviors (2) (0) | 2018.10.21 |
[RL] CS285 - Supervised Learning of Behaviors (1) (0) | 2018.10.17 |
[MLY] Machine Learning Yearning Overview (1) | 2018.10.16 |
[MLY] 결함이 있는 ML 파이프라인 발견 & 결론 (0) | 2018.10.16 |
- Total
- Today
- Yesterday
- Pipeline
- Policy Gradient
- processing
- 강화학습
- Offline RL
- PowerPoint
- RL
- ai
- Expression Blend 4
- DepthStream
- 딥러닝
- ColorStream
- Gan
- Windows Phone 7
- Kinect
- Kinect for windows
- arduino
- bias
- windows 8
- 파이썬
- Variance
- TensorFlow Lite
- SketchFlow
- Kinect SDK
- Off-policy
- dynamic programming
- Distribution
- 한빛미디어
- End-To-End
- reward
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |