(본문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Hyperparameter Selection for Offline Reinforcement Learning - Le Paine et al, NeurIPS 2020 Offline RL workshop (논문, 영상) 요약 Offline RL은 실제 환경에 RL 기법들을 적용하기 좋은 방법론이긴 하지만 환경상에서 어떤 policy가 좋은 policy인지 각 hyperparameter에 따라서 평가하는 과정으로 인해 offline 가정이 깨지게 된다. 이렇게 online 상에서 수행하는 과정으로 인해 offline RL을 통해 추구하는 목표가 상대적으로 약화된다. 그래서 이 논문에서는 offline hyperparameter selection,..
(본문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Offline Reinforcement Learning from Algorithms to Practical Challenges - Kumar et al, NeurIPS 2020 Tutorial (사이트, 실습코드) 원래 거진 3시간짜리 tutorial이기 때문에 정리하는데 시간이 걸릴듯 하다. 그래도 전반적인 Offline RL의 문제와 이론에 대해서 잘 설명되어 있어서 차근차근 설명해보고자 한다. 기본적인 RL 내용도 포함되어 있어, Offline RL 부분만 뽑아서 정리한다. Can we develop data-driven RL methods? 보통 강화학습이라고 하면 다음과 같은 환경을 가정하고 진행한다. 일반적으로는 어떤 환경이 주..
(해당 포스트에서 소개하고 있는 "파이썬을 활용한 금융 분석" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.) 파이썬을 활용한 금융 분석(2판) 금융 분야 종사자, 관련 개발자들이 파이썬을 시작하고 이를 활용하여 중용한 금융 분석 업무를 할 수 있도록 도와주는 최적의 실무 가이드 북입니다. hanbit.co.kr 아마 주식을 하고 있다면 솔깃한 내용 중 하나는 과연 인공지능으로 주식을 자동으로 거래하게 해서 돈을 벌 수 있을까 일 것이다. 그래서 시중에도 증권API를 파이썬으로 다루는 방법에 대한 내용을 소개한 책들이 다수 소개되어 있다. 물론 수많은 접근 방식이 있겠지만, 모든 접근 방식보다도 선행되어야 할 것은 데이터 분석이 아닐까 생각된다. (과거를 포함하여) 현재 쌓여 있는 특정 데이터속에서 ..
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Offline RL without Off-Policy Evaluation - Brandfonbrener et al, NeurIPS 2021 (논문, 코드) 요약 이전에 수행된 대부분의 Offline RL에서는 off-policy evaluation과 관련된 반복적인 Actor-critic 기법을 활용했다. 이 논문에서는 behavior policy의 on-policy Q estimate를 사용해서 제한된/정규화된 policy improvement를 단순히 한번만 수행해도 잘 동작하는 것을 확인했다.이 one-step baseline이 이전에 발표되었던 논문에 비하면 눈에 띌만큼 간단하면서도 hyperparameter에 대해서 robust한..
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction - Kumar et al, NeurIPS 2019 (논문, 코드) 요약 Off-policy RL은 샘플링 관점에서 효율적인 학습을 위해서 다른 policy (behavior policy)로부터 수집한 데이터로부터 경험을 배우는데 초점을 맞추지만, Q-learning이나 Actor-Critic 기반의 off-policy Approximate dynamic programming 기법은 학습시 사용된 데이터와 실제 데이터간의 분포가 다른 문제로 인해서 on-policy data를 추가로 활용하지 않고서는 성능을 개선하기가 어..
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Off-Policy Deep Reinforcement Learning without Exploration - Fujimoto et al, ICML 2019 (논문, 코드) 요약 이 논문에서는 이미 모아져있는 고정된 dataset 상에서 강화학습 에이전트를 학습할 수 있는 알고리즘을 소개한다. 보통 강화학습은 exploration을 통해서 insight를 얻어내고, 이에 대한 경험으로 성능을 추출하는 형태로 되어 있지만, 고정된 dataset으로부터 학습하게 되면 exploration을 할 수 없기 때문에 성능을 얻어낼 요소가 부족하다. 이런 종류의 알고리즘을 Offline RL 혹은 Batch RL이라고 표현하고, 사실 이 알고리즘은 be..
(해당 포스트에서 소개하고 있는 "딥러닝 파이토치 교과서" 책은 길벗 미디어로부터 제공받았음을 알려드립니다.) 딥러닝 파이토치 교과서 기초부터 CNN, RNN, 시계열 분석, 성능 최적화, 자연어 처리, 강화 학습, 생성 모델까지! www.gilbut.co.kr 어느 순간부터인가 논문에 구현되어 있는 모델을 github에서 찾다보면 거의 대부분이 pytorch로 구현되어 있다. 현재 현업에서 사용하고 있는 것이 tensorflow다 보니, tensorflow로는 어떻게 구현되어 있나 찾아봐도 진짜 거의 대부분이 pytorch로 되어 있다. 이런 트렌드가 계속 나타나고 있는 이유는 아마 pytorch가 그만큼 대중화되어 사용하기 직관적으로 되어 있어서가 아닐까 싶다. (사실 tensorflow도 2.x대로..
(해당 포스트에서 소개하고 있는 "Deep Learning for Coders with fastai & PyTorch" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.) fastai와 파이토치가 만나 꽃피운 딥러닝 최소한의 지식으로 딥러닝을 쉽게 배울 수 있는 도서 hanbit.co.kr 요새는 인공지능 교육에 대한 수요가 많기도 하고, 유무료로 교육자료가 제공되는 형태들도 많아졌다. 맘만 먹으면 양질의 인공지능 강의를 무료로도 들을 수 있는 것이다. 물론 수많은 강의들이 있겠지만, 그 중에 한 축이라고 할 수 있는 강의 중 하나가 fast.ai일 것이다. fast.ai · Making neural nets uncool again 15 Mar 2022 Rachel Thomas On the surface..
(해당 글은 U.C. Berkeley 박사과정에 재학중인 Daniel Seita가 작성한 포스트 내용을 원저자 동의하에 번역한 내용입니다) Offline (Batch) Reinforcement Learning: A Review of Literature and Applications Reinforcement learning is a promising technique for learning how to perform tasks through trial and error, with an appropriate balance of exploration and exploitation. Offline Reinforcement Learning, also known as Batch Reinforcement Learni..
(해당 포스트에서 소개하고 있는 "파이썬으로 익히는 말랑말랑 알고리즘" 책은 BJ퍼블릭으로부터 제공받았음을 알려드립니다.) 파이썬으로 익히는 말랑말랑 알고리즘 파이썬으로 익히는 말랑말랑 알고리즘 부제 차근차근 설명하고 막힘없이 이해하는 알고리즘 저자 김경록 출판사 비제이퍼블릭 출간/배본가능일 2022년 01월 26일 정가 30,000원 페이지 448쪽 판형 bjpublic.tistory.com 아마 IT회사 취업을 목표로 하는 사람이라면 누구든 코딩 테스트에 대한 준비를 할 것이다. 흔히 네카라쿠배 라고 하는 상위 IT기업들만 하더라도 입사를 위해서는 코딩테스트나 코딩 과제를 제출해야하고, 이를 준비하는 교육 과정과 책들이 시중에도 많이 나와있다. IT 게시판같은 것을 살펴보면 이 코딩테스트의 필요성에 ..
- Total
- Today
- Yesterday
- Distribution
- reward
- Kinect
- TensorFlow Lite
- Variance
- 강화학습
- Pipeline
- DepthStream
- Python
- windows 8
- Kinect for windows
- ColorStream
- Gan
- Kinect SDK
- PowerPoint
- 파이썬
- RL
- processing
- Policy Gradient
- bias
- End-To-End
- 딥러닝
- Offline RL
- SketchFlow
- dynamic programming
- Expression Blend 4
- 한빛미디어
- Windows Phone 7
- Off-policy
- arduino
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |