본문 바로가기 메뉴 바로가기

자신에 대한 고찰

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

자신에 대한 고찰

검색하기 폼
  • 분류 전체보기 (1094)
    • Me (67)
    • Things (69)
    • Study (437)
      • SW (2)
      • Linux (36)
      • OS (49)
      • Circuit (6)
      • Architecture (36)
      • Compiler (23)
      • EmbeddedSystem (30)
      • Network (8)
      • AI (180)
      • Algorithm (4)
      • comm (4)
      • Work (6)
      • MOOC (44)
    • PC (24)
    • Arduino (36)
    • RPi (15)
    • Office (30)
    • Kinect (75)
    • OpenCV (42)
    • WindowsPhone (40)
    • Windows 8 (37)
    • Processing (25)
    • Expression (37)
      • SketchFlow (18)
    • Hobby (159)
      • Guitar (9)
      • Game (13)
      • Book (115)
      • Code (16)
  • 방명록

Value Iteration (1)
[RL] Flexibility of the Policy Iteration Framework

(해당 포스트는 Coursera의 Fundamentals of Reinforcement Learning의 강의 요약본입니다) Policy Iteration은 Policy Evaluation과 Policy Improvement를 반복하면서 현재의 policy \(\pi\)를 최대한 optimal policy \(\pi_*\)에 가깝게 update하는 방법을 말한다. 아마 Sutton책에서는 다음과 같은 그림으로 도식화를 해놨을 것이다. 아니면 이런 그림도 같이 보았을 것이다. 현재의 policy \(\pi\)와 초기의 value function \(v\)가 있으면, 처음에는 \(\pi\)에 따라 action을 취하고 이에 맞게 value function을 update하게 된다 (\(v=v_{\pi}\)) ..

Study/AI 2019. 8. 29. 19:42
이전 1 다음
이전 다음
공지사항
  • 2015년은 조금더 열심히 해보려고 합니다.
  • [2014.04.10] 드리는 말씀
  • [Notice] 블로그에 오신 분들께 드리는 ⋯
  • [Public] Profile - update⋯
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • chans_jupyter
TAG
  • Kinect for windows
  • Distribution
  • Policy Gradient
  • Gan
  • Kinect SDK
  • 딥러닝
  • SketchFlow
  • TensorFlow Lite
  • reward
  • Pipeline
  • ColorStream
  • bias
  • Kinect
  • arduino
  • 인공지능
  • DepthStream
  • windows 8
  • PowerPoint
  • End-To-End
  • processing
  • Windows Phone 7
  • Expression Blend 4
  • dynamic programming
  • Variance
  • 파이썬
  • 한빛미디어
  • Off-policy
  • 강화학습
  • RL
  • Offline RL
more
«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바