본문 바로가기 메뉴 바로가기

자신에 대한 고찰

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

자신에 대한 고찰

검색하기 폼
  • 분류 전체보기 (1094)
    • Me (67)
    • Things (69)
    • Study (437)
      • SW (2)
      • Linux (36)
      • OS (49)
      • Circuit (6)
      • Architecture (36)
      • Compiler (23)
      • EmbeddedSystem (30)
      • Network (8)
      • AI (180)
      • Algorithm (4)
      • comm (4)
      • Work (6)
      • MOOC (44)
    • PC (24)
    • Arduino (36)
    • RPi (15)
    • Office (30)
    • Kinect (75)
    • OpenCV (42)
    • WindowsPhone (40)
    • Windows 8 (37)
    • Processing (25)
    • Expression (37)
      • SketchFlow (18)
    • Hobby (159)
      • Guitar (9)
      • Game (13)
      • Book (115)
      • Code (16)
  • 방명록

Random Search (3)
[RL] Clues for Which I Search and Choose

model-free 설명을 마치기 전에 다시 Linearization Principle에 대해서 살펴보자. 우리는 간단한 선형성 문제에서 random search도 잘 동작하는 것을 확인했고, 어쩔 때는 Policy Gradient같은 강화학습보다 더 잘 동작하는 것도 보았다. 그러면 뭔가 어려운 문제를 풀 때 Random Search로 해결해야 할까? 미리 말하자면, 아니다. 그래도 계속 읽어봐라! 이제 강화학습 커뮤니티에서 흥미있는 문제에 random search를 적용해보자. Deep RL 커뮤니티에서는 OpenAI에서 관리되고, MuJoCo 시뮬레이터를 기반으로 하는, 일종의 benchmark에 많은 시간을 할애하고 있다. 여기서 optimal control problem이란 다리가 달린 로봇을 ..

Study/AI 2019. 3. 5. 09:55
[RL] Updates on Policy Gradients

지난번 nominal control에 대한 포스트 이후에, Pavel Christof로부터 메일을 받았었는데, 내용은 만약 Stochastic Gradient Descent를 Adam 으로 바꾼다면 Policy Gradient가 더 잘 동작한다는 것이었다. 실제로 내가 구현해보니까, 그가 말한 말이 맞았다. 한번 지난 Jupyter notebook과 함께 포스트 내용을 살펴보자. 우선 다른 딥러닝 패키지간의 dependency를 제거하기 위해서 adam을 순수 python으로 구현했다.( python으로 4줄로 구현했다.) 두번째로 지난번 코드에서 구현한 random search 부분에서 부적절하게 탐색방향을 잡는 것에 대한 버그를 수정했다. 이제 다시 median performance를 살펴보면 아래와..

Study/AI 2019. 3. 4. 22:54
[RL] A Model, You Know What I Mean?

강화학습에서 모델의 역할은 여전히 많이 논의가 되고 있다. policy gradient와 같이 model-free method(model 없는 상태에서 학습하는 방법)은 system을 관찰하고, 이전에 받았던 award와 state를 바탕으로 현재의 전략을 개선시킴으로써 optimal control problem을 푸는데 목적을 두고 있다. 수많은 학자들이 논의하고 있는 내용은 실제 물리 시스템을 시뮬레이션 하는데 필요한 수많은 복잡한 수식의 조합이 필요없이 선천적으로 학습할 수 있는 시스템에 대한 것이다. 또한 전체 system dynamic에 대해서 범용적으로 쓸 수 있는 모델을 학습시키는 것보다 특정 작업에 대한 정책을 찾는게 쉬운지 여부에 대해서도 논쟁을 하고 있다. 반대로 연속된(continuo..

Study/AI 2019. 2. 27. 23:47
이전 1 다음
이전 다음
공지사항
  • 2015년은 조금더 열심히 해보려고 합니다.
  • [2014.04.10] 드리는 말씀
  • [Notice] 블로그에 오신 분들께 드리는 ⋯
  • [Public] Profile - update⋯
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • chans_jupyter
TAG
  • arduino
  • End-To-End
  • Distribution
  • Expression Blend 4
  • Gan
  • reward
  • Variance
  • SketchFlow
  • Kinect for windows
  • windows 8
  • 한빛미디어
  • TensorFlow Lite
  • DepthStream
  • processing
  • ColorStream
  • Windows Phone 7
  • 파이썬
  • Offline RL
  • 인공지능
  • Pipeline
  • Off-policy
  • bias
  • PowerPoint
  • 강화학습
  • dynamic programming
  • RL
  • Kinect
  • 딥러닝
  • Policy Gradient
  • Kinect SDK
more
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바