본문 바로가기 메뉴 바로가기

자신에 대한 고찰

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

자신에 대한 고찰

검색하기 폼
  • 분류 전체보기 (1094)
    • Me (67)
    • Things (69)
    • Study (437)
      • SW (2)
      • Linux (36)
      • OS (49)
      • Circuit (6)
      • Architecture (36)
      • Compiler (23)
      • EmbeddedSystem (30)
      • Network (8)
      • AI (180)
      • Algorithm (4)
      • comm (4)
      • Work (6)
      • MOOC (44)
    • PC (24)
    • Arduino (36)
    • RPi (15)
    • Office (30)
    • Kinect (75)
    • OpenCV (42)
    • WindowsPhone (40)
    • Windows 8 (37)
    • Processing (25)
    • Expression (37)
      • SketchFlow (18)
    • Hobby (159)
      • Guitar (9)
      • Game (13)
      • Book (115)
      • Code (16)
  • 방명록

GPI (1)
[RL] SARSA : GPI with TD

(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다) 이전 포스트 중에 Generalized Policy Iteration (GPI)에 대해서 다뤘던 내용이 있다. GPI는 현재 policy \(\pi\)에 대한 state value function을 구하는 Policy Evaluation과 해당 state value function을 바탕으로 greedy action을 취함으로써 해당 policy를 개선시키는 Policy Improvement 과정으로 나뉘어져 있다. 그 포스트에서는 Monte Carlo를 사용한 GPI를 소개했었다. 그런데 이제 TD Learning을 살펴봤으니, Monte Carlo method가 Episode가 terminat..

Study/AI 2019. 9. 11. 15:30
이전 1 다음
이전 다음
공지사항
  • 2015년은 조금더 열심히 해보려고 합니다.
  • [2014.04.10] 드리는 말씀
  • [Notice] 블로그에 오신 분들께 드리는 ⋯
  • [Public] Profile - update⋯
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • chans_jupyter
TAG
  • bias
  • RL
  • 딥러닝
  • Windows Phone 7
  • arduino
  • reward
  • Variance
  • Kinect SDK
  • processing
  • ColorStream
  • Gan
  • Expression Blend 4
  • End-To-End
  • Pipeline
  • DepthStream
  • Kinect for windows
  • 파이썬
  • Off-policy
  • 인공지능
  • Offline RL
  • Kinect
  • TensorFlow Lite
  • Policy Gradient
  • PowerPoint
  • Distribution
  • SketchFlow
  • 한빛미디어
  • 강화학습
  • dynamic programming
  • windows 8
more
«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바