(해당 글은 OpenAI Engineer인 Lilian Weng의 포스트 내용을 원저자 동의하에 번역한 내용입니다.) Domain Randomization for Sim2Real Transfer If a model or policy is mainly trained in a simulator but expected to work on a real robot, it would surely face the sim2real gap. Domain Randomization (DR) is a simple but powerful idea of closing this gap by randomizing properties of the training environ lilianweng.github.io 만약 model이나 ..
(해당 포스트는 Coursera의 Fundamentals of Reinforcement Learning의 강의 요약본입니다) Policy Iteration은 Policy Evaluation과 Policy Improvement를 반복하면서 현재의 policy \(\pi\)를 최대한 optimal policy \(\pi_*\)에 가깝게 update하는 방법을 말한다. 아마 Sutton책에서는 다음과 같은 그림으로 도식화를 해놨을 것이다. 아니면 이런 그림도 같이 보았을 것이다. 현재의 policy \(\pi\)와 초기의 value function \(v\)가 있으면, 처음에는 \(\pi\)에 따라 action을 취하고 이에 맞게 value function을 update하게 된다 (\(v=v_{\pi}\)) ..
원본 : https://www.oreilly.com/ideas/how-ai-and-machine-learning-are-improving-customer-experience 작성자 : Ben Lorica, Mike Loukides (이 글은 한빛미디어의 콘텐츠 세션에서 "인공지능(AI)와 머신러닝(ML)은 어떻게 고객의 경험을 향상시키는가" 라는 글로 게시되었습니다.) 데이터의 질에서부터 개인화, 고객의 효용가치나 소유에 이르기까지 궁극적으로 AI와 ML은 미래의 고객의 경험적인 부분을 좌우할 것이다. 인공지능(AI)이나 머신러닝(ML)의 어떤 부분이 고객의 경험적인 부분을 향상시킬 수 있을까? 사실 AI와 ML은 이미 온라인 쇼핑이 시작하는 시점부터 온라인 쇼핑과 긴밀하게 연결되어 왔다. 아마 당신은 ..
- Total
- Today
- Yesterday
- Policy Gradient
- RL
- Variance
- arduino
- reward
- End-To-End
- Gan
- Kinect
- DepthStream
- Offline RL
- windows 8
- Kinect for windows
- Pipeline
- TensorFlow Lite
- Python
- dynamic programming
- bias
- Expression Blend 4
- Off-policy
- SketchFlow
- 한빛미디어
- 강화학습
- Kinect SDK
- processing
- 딥러닝
- PowerPoint
- ColorStream
- 파이썬
- Distribution
- Windows Phone 7
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |