본문 바로가기 메뉴 바로가기

자신에 대한 고찰

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

자신에 대한 고찰

검색하기 폼
  • 분류 전체보기 (1094)
    • Me (67)
    • Things (69)
    • Study (437)
      • SW (2)
      • Linux (36)
      • OS (49)
      • Circuit (6)
      • Architecture (36)
      • Compiler (23)
      • EmbeddedSystem (30)
      • Network (8)
      • AI (180)
      • Algorithm (4)
      • comm (4)
      • Work (6)
      • MOOC (44)
    • PC (24)
    • Arduino (36)
    • RPi (15)
    • Office (30)
    • Kinect (75)
    • OpenCV (42)
    • WindowsPhone (40)
    • Windows 8 (37)
    • Processing (25)
    • Expression (37)
      • SketchFlow (18)
    • Hobby (159)
      • Guitar (9)
      • Game (13)
      • Book (115)
      • Code (16)
  • 방명록

model (2)
[RL] Model & Planning

(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다) 강화학습을 공부하다보면 state나 action같은 기본 notation만큼이나 자주 나오는 단어가 Model이 아닐까 생각된다. 이전 포스트에서 Monte Carlo method나 Temporal Difference Learning을 다뤘고, 이 둘의 차이가 여러가지가 있지만, 그래도 넓은 관점에서 보자면 두 알고리즘은 Model이 있냐(Model-based) 없냐(Model-free)로 나눠서 볼 수 있다. sutton 책에 있는 표현을 가져오자면 Model-based RL은 planning에 초점이 맞춰져 있고, Model-free RL은 learning에 중점을 두고 있다. 그럼 여기서 말..

Study/AI 2019. 9. 25. 09:44
[RL] A Model, You Know What I Mean?

강화학습에서 모델의 역할은 여전히 많이 논의가 되고 있다. policy gradient와 같이 model-free method(model 없는 상태에서 학습하는 방법)은 system을 관찰하고, 이전에 받았던 award와 state를 바탕으로 현재의 전략을 개선시킴으로써 optimal control problem을 푸는데 목적을 두고 있다. 수많은 학자들이 논의하고 있는 내용은 실제 물리 시스템을 시뮬레이션 하는데 필요한 수많은 복잡한 수식의 조합이 필요없이 선천적으로 학습할 수 있는 시스템에 대한 것이다. 또한 전체 system dynamic에 대해서 범용적으로 쓸 수 있는 모델을 학습시키는 것보다 특정 작업에 대한 정책을 찾는게 쉬운지 여부에 대해서도 논쟁을 하고 있다. 반대로 연속된(continuo..

Study/AI 2019. 2. 27. 23:47
이전 1 다음
이전 다음
공지사항
  • 2015년은 조금더 열심히 해보려고 합니다.
  • [2014.04.10] 드리는 말씀
  • [Notice] 블로그에 오신 분들께 드리는 ⋯
  • [Public] Profile - update⋯
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • chans_jupyter
TAG
  • 한빛미디어
  • Off-policy
  • 파이썬
  • Kinect SDK
  • reward
  • DepthStream
  • PowerPoint
  • windows 8
  • Pipeline
  • Policy Gradient
  • Offline RL
  • SketchFlow
  • End-To-End
  • dynamic programming
  • ColorStream
  • Variance
  • Windows Phone 7
  • arduino
  • 인공지능
  • Kinect for windows
  • Gan
  • Kinect
  • Distribution
  • bias
  • RL
  • processing
  • 딥러닝
  • Expression Blend 4
  • TensorFlow Lite
  • 강화학습
more
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바