본문 바로가기 메뉴 바로가기

자신에 대한 고찰

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

자신에 대한 고찰

검색하기 폼
  • 분류 전체보기 (1094)
    • Me (67)
    • Things (69)
    • Study (437)
      • SW (2)
      • Linux (36)
      • OS (49)
      • Circuit (6)
      • Architecture (36)
      • Compiler (23)
      • EmbeddedSystem (30)
      • Network (8)
      • AI (180)
      • Algorithm (4)
      • comm (4)
      • Work (6)
      • MOOC (44)
    • PC (24)
    • Arduino (36)
    • RPi (15)
    • Office (30)
    • Kinect (75)
    • OpenCV (42)
    • WindowsPhone (40)
    • Windows 8 (37)
    • Processing (25)
    • Expression (37)
      • SketchFlow (18)
    • Hobby (159)
      • Guitar (9)
      • Game (13)
      • Book (115)
      • Code (16)
  • 방명록

convex (1)
[RL] The Policy of Truth

우리가 처음으로 다뤄볼 강화학습 알고리즘은 Policy Gradient 이다. 사실 1993년에 Policy Gradient가 나쁜 아이디어로 찍혀서 나오지 못했다는 사실이 놀랍긴 하다. Policy Gradient는 어떠한 domain knowledge없이도 어떤 문제도 풀수 있게끔 프로그램을 좋게 튜닝하는데 도움을 주기 때문에 매력적인 알고리즘이다. 물론 어떤 알고리즘이든 이렇게 주장하려면 이렇게 주장하려면, 그 좋은 부분에 대해서 매우 일반적인 성향을 띄어야 한다. 실제로 살펴보면 알겠지만 policy gradient란 수학적 심볼과 공식으로 이뤄진 랜덤 탐색에 불과하다. 사실 이 내용은 많은 포스트를 할애해야 하기 때문에 미리 사과하고자 한다. Policy Gradient란 어떤 것에 대해서 깊게..

Study/AI 2019. 2. 25. 11:27
이전 1 다음
이전 다음
공지사항
  • 2015년은 조금더 열심히 해보려고 합니다.
  • [2014.04.10] 드리는 말씀
  • [Notice] 블로그에 오신 분들께 드리는 ⋯
  • [Public] Profile - update⋯
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • chans_jupyter
TAG
  • 인공지능
  • processing
  • 강화학습
  • End-To-End
  • Kinect for windows
  • RL
  • Kinect
  • reward
  • arduino
  • Distribution
  • dynamic programming
  • 한빛미디어
  • TensorFlow Lite
  • 파이썬
  • 딥러닝
  • ColorStream
  • DepthStream
  • Kinect SDK
  • Variance
  • Off-policy
  • Gan
  • bias
  • Windows Phone 7
  • windows 8
  • SketchFlow
  • Policy Gradient
  • Offline RL
  • Pipeline
  • PowerPoint
  • Expression Blend 4
more
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바