Epistemic Uncertainty는 현재 가지고 있는 지식의 한계로 인해서 발생하는 불확실성을 나타낸다. (시스템이나 모델이 원론적으로 가지는 불확실성이 아니라...) 예를 들어서 어떤 모델이나 시스템을 이해하는데 있어서 정보가 부족하거나 불완전해서 해당 시스템을 설명하기 어렵지만, 추후에라도 어떤 조건이 만족한다면 충분히 설명할 수 있는 가능성이 존재하는 경우가 이런 경우다. 결국 시간이 지나가고, 정보가 더 많이 제공되면 해결될 수 있는 불확실성을 나타낸다. Aleatoric Uncertainty는 반대로 시스템이나 모델이 원론적으로 불확실성을 나타낸다. 예를 들어서 동전던지기나 주사위던지기는 아무리 동전과 주사위를 잘 모사한다고 해도, 어떤 사건에 대한 결과를 예측하기가 어려운 형태이다. 이 ..
(해당 포스트는 UC Berkeley 에서 진행된 CS285: Deep Reinforcement Learning, Decision Making and Control를 요약한 내용이며, 그림들은 강의 장표에서 발췌한 내용입니다.) CS 285 GSI Yuqing Du yuqing_du@berkeley.edu Office Hours: Wednesday 10:30-11:30am (BWW 1206) rail.eecs.berkeley.edu Reducing variance 이전 포스트에서 소개했다시피, policy gradient 알고리즘은 high variance로 인해서 practical problem에 적용하기 어려웠다. 그러면 이 variance를 줄일 수 있는 방법이 있을까? 다시 policy gradi..
(해당 포스트는 UC Berkeley 에서 진행된 CS285: Deep Reinforcement Learning, Decision Making and Control를 요약한 내용이며, 그림들은 강의 장표에서 발췌한 내용입니다.) CS 285 GSI Yuqing Du yuqing_du@berkeley.edu Office Hours: Wednesday 10:30-11:30am (BWW 1206) rail.eecs.berkeley.edu Comparison to maximum likelihood 이전 포스트의 마지막에 다뤘던 식이 아래와 같다. $$ \nabla_{\theta}J(\theta) \approx \frac{1}{N} \sum_{i=1}^N \big( \sum_{t=1}^T \nabla_{\thet..
보호되어 있는 글입니다.
(해당 포스트는 UC Berkeley 에서 진행된 CS285: Deep Reinforcement Learning, Decision Making and Control를 요약한 내용이며, 그림들은 강의 장표에서 발췌한 내용입니다.) CS 285 GSI Yuqing Du yuqing_du@berkeley.edu Office Hours: Wednesday 10:30-11:30am (BWW 1206) rail.eecs.berkeley.edu The goal of reinforcement learning 이 강의 주제는 신경망을 활용한 강화학습을 다루는 것이다. 강화학습의 목표라고 하면 어떤 환경에서 잘 동작하는 policy를 찾는 것인데, Deep RL에서는 이 policy가 신경망으로 표현된다. 그래서 이 po..
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Deterministic Policy Gradient Algorithm (D.Silver et al, 2014) Abstract 이 논문에서는 Continuous Action을 수행할 수 있는 Deterministic Policy Gradient (DPG)에 대해서 소개하고 있다. DPG는 (보통 Q value function이라고 알고 있는) action-value function(\(Q^{\pi}(s, a)\) )의 expected gradient 형태로 되어 있어, 일반적으로 알고 있는 (Stochastic) Policy Gradient 보다 data efficiency 측면에서 이점이 있다. 대신 Deterministic하기 때문에..
(본문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Hyperparameter Selection for Offline Reinforcement Learning - Le Paine et al, NeurIPS 2020 Offline RL workshop (논문, 영상) 요약 Offline RL은 실제 환경에 RL 기법들을 적용하기 좋은 방법론이긴 하지만 환경상에서 어떤 policy가 좋은 policy인지 각 hyperparameter에 따라서 평가하는 과정으로 인해 offline 가정이 깨지게 된다. 이렇게 online 상에서 수행하는 과정으로 인해 offline RL을 통해 추구하는 목표가 상대적으로 약화된다. 그래서 이 논문에서는 offline hyperparameter selection,..
(본문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Offline Reinforcement Learning from Algorithms to Practical Challenges - Kumar et al, NeurIPS 2020 Tutorial (사이트, 실습코드) 원래 거진 3시간짜리 tutorial이기 때문에 정리하는데 시간이 걸릴듯 하다. 그래도 전반적인 Offline RL의 문제와 이론에 대해서 잘 설명되어 있어서 차근차근 설명해보고자 한다. 기본적인 RL 내용도 포함되어 있어, Offline RL 부분만 뽑아서 정리한다. Can we develop data-driven RL methods? 보통 강화학습이라고 하면 다음과 같은 환경을 가정하고 진행한다. 일반적으로는 어떤 환경이 주..
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Offline RL without Off-Policy Evaluation - Brandfonbrener et al, NeurIPS 2021 (논문, 코드) 요약 이전에 수행된 대부분의 Offline RL에서는 off-policy evaluation과 관련된 반복적인 Actor-critic 기법을 활용했다. 이 논문에서는 behavior policy의 on-policy Q estimate를 사용해서 제한된/정규화된 policy improvement를 단순히 한번만 수행해도 잘 동작하는 것을 확인했다.이 one-step baseline이 이전에 발표되었던 논문에 비하면 눈에 띌만큼 간단하면서도 hyperparameter에 대해서 robust한..
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction - Kumar et al, NeurIPS 2019 (논문, 코드) 요약 Off-policy RL은 샘플링 관점에서 효율적인 학습을 위해서 다른 policy (behavior policy)로부터 수집한 데이터로부터 경험을 배우는데 초점을 맞추지만, Q-learning이나 Actor-Critic 기반의 off-policy Approximate dynamic programming 기법은 학습시 사용된 데이터와 실제 데이터간의 분포가 다른 문제로 인해서 on-policy data를 추가로 활용하지 않고서는 성능을 개선하기가 어..
(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Off-Policy Deep Reinforcement Learning without Exploration - Fujimoto et al, ICML 2019 (논문, 코드) 요약 이 논문에서는 이미 모아져있는 고정된 dataset 상에서 강화학습 에이전트를 학습할 수 있는 알고리즘을 소개한다. 보통 강화학습은 exploration을 통해서 insight를 얻어내고, 이에 대한 경험으로 성능을 추출하는 형태로 되어 있지만, 고정된 dataset으로부터 학습하게 되면 exploration을 할 수 없기 때문에 성능을 얻어낼 요소가 부족하다. 이런 종류의 알고리즘을 Offline RL 혹은 Batch RL이라고 표현하고, 사실 이 알고리즘은 be..
(해당 글은 U.C. Berkeley 박사과정에 재학중인 Daniel Seita가 작성한 포스트 내용을 원저자 동의하에 번역한 내용입니다) Offline (Batch) Reinforcement Learning: A Review of Literature and Applications Reinforcement learning is a promising technique for learning how to perform tasks through trial and error, with an appropriate balance of exploration and exploitation. Offline Reinforcement Learning, also known as Batch Reinforcement Learni..
Dopamine은 Google Research에서 만든 강화학습 실험용 Framework이다. 사실 이 툴의 취지는 SW 개발적인 측면보다는 강화학습 알고리즘 개발에 치중할 수 있도록 환경과 에이전트 설정을 configuration화시킨 것이다. 그래서 소개란에도 "Fast prototyping of reinforcement learning algorithm"이라고 되어 있다. Framework에 대한 논문은 아래에 있다. Dopamine: A Research Framework for Deep Reinforcement Learning Deep reinforcement learning (deep RL) research has grown significantly in recent years. A number..
최근 다양한 교육기관에서 인공지능 교육을 제공하고 있다. 물론 비용을 어느정도 들여야 수업을 받을 수 있는 경우도 있지만, 잘 찾아보면 무료로 교육을 받을 수 있는 곳도 많이 있는것 같다. 나도 시간을 쪼개서 들을 수 있는 수업을 찾아서 들어본 편이고, 아는 내용이더라도 다시한번 들어보면서 아 어떤식으로 어떤 내용을 가르치면 좋겠구나 하는 것을 파악하는 편이다. 그 중 최근에 수강했던 수업 중 공유하면 좋을 것 같아서 이번 포스트에서 소개해본다. 정보통신산업진흥원에서는 개발자를 위한 다양한 교육을 무료로 제공하는데, 그 중 하나는 elice.io 플랫폼과 결합한 인공지능 교육이다. 2021 NIPA AI 온라인 교육 | 엘리스: 코딩, 엘리스에서 시작하세요! 실습중심 온라인 코딩교육, 엘리스! 개인 및 ..
며칠전에 DeepMind에서 강화학습 벤치마크로 많이 쓰이는 물리엔진인 MuJoCo를 무료로 공개했다. Opening up a physics simulator for robotics As part of DeepMind's mission of advancing science, we have acquired the MuJoCo physics simulator and are making it freely available for everyone, to support research everywhere. deepmind.com 이 MuJoCo 엔진이 참 뭐한게 가격은 가격대로 비싸면서, 지원도 잘 안해주고, 뭔가 뒷단에서 필요로 하는 패키지들이 너무 많아 사용하는데 벽이 좀 있었다. 물론 학생들한테는 1년 라이..
- Total
- Today
- Yesterday
- windows 8
- 파이썬
- ColorStream
- processing
- Kinect SDK
- End-To-End
- Policy Gradient
- RL
- 강화학습
- Expression Blend 4
- Offline RL
- Gan
- 딥러닝
- ai
- TensorFlow Lite
- DepthStream
- bias
- Kinect
- Variance
- dynamic programming
- SketchFlow
- Off-policy
- 한빛미디어
- arduino
- Kinect for windows
- PowerPoint
- Pipeline
- Windows Phone 7
- Distribution
- reward
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |