[RL] Fully Observable와 Partially observable의 차이

티스토리 뷰

Study/AI

[RL] Fully Observable와 Partially observable의 차이

생각많은 소심남 2018. 10. 22. 13:57

강화학습을 다루다보면 근본적으로 environment의 특성에 대해서 이해할 필요가 있다. 그 중에서도 많이 나오는 내용이 해당 env가 Fully Observable 이냐 Partially Observable이냐 를 정의하는 것이다.

우선 Observability라는 개념은 Dynamic Control System 이론에서 나온 개념인데, 위키피디아에 정의된 내용을 그대로 가져오면, 시스템의 내부 상태가 외부 출력에 대한 지식으로부터 얼마나 잘 추론될 수 있는지에 대한 척도를 말한다. 다시 말해서 출력만 가지고 시스템 상태를 파악할 수 있느냐를 나타내는 것이다.

Fully Observable이라는 말은 출력된 결과만 가지고도 내부 state를 모두 추론할 수 있는 것을 의미한다. 강화학습 notation으로 표현하면 action을 행하는 agent가 해당 environment와 관련된, 또는 action에 의해서 영향을 받는 변수들을 모두 관찰할 수 있는 것이다. 이를 활용하여 시스템의 내부 구조도 이해할 수 있기 때문에 굳이 memory를 가지고 있지 않더라도 Optimal Decision making이 가능하다. 예를 들자면 체스 게임 같은 경우는 한번 판이 정해진 경우, 각각의 말이 움직이는 경우와 각 말이 움직일 수 있는 경로에 대해서 agent가 인지할 수 있기 때문에 Fully Observable하다고 표현할 수 있다.

반면, Partially Observable은 Fully Observable과 다르게 받은 출력만 가지고 내부 state를 일부만 추론할 수 있다. 그렇기 때문에 Optimal Decision making 시에도 과거의 데이터를 기반으로 action을 결정하기 때문에 내부적으로 memory를 가져야 한다는 특징이 있다. 포커 게임 같은 경우는 보통 판이 열렸을 때 상대방한테 보여지는 패도 있고, 안 보여지는 패도 있기 때문에 안 보여진 패에 대한 state를 agent 인지할 방법이 없다. 그렇기 때문에 Partially Observable의 대표적인 예로 들고 있다.

저작자표시 비영리 변경금지

'Study > AI' 카테고리의 다른 글

[RL] Make It Happen (0)	2019.02.14
[ML] Board Game Review Prediction (0)	2019.02.07
[RL] mujoco_py 실행시 ERROR: GLEW initalization error: Missing GL version 해결 (0)	2018.10.24
[RL] CS285- Supervised Learning of Behaviors (2) (0)	2018.10.21
[RL] CS285 - Supervised Learning of Behaviors (1) (0)	2018.10.17
[MLY] Machine Learning Yearning Overview (1)	2018.10.16
[MLY] 결함이 있는 ML 파이프라인 발견 & 결론 (0)	2018.10.16

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

chans_jupyter

TAG more

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

자신에 대한 고찰

티스토리 뷰

[RL] Fully Observable와 Partially observable의 차이

'Study > AI' 카테고리의 다른 글

티스토리툴바