(논문의 의도를 가져오되, 개인적인 의견이 담길 수도 있습니다.) Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction - Kumar et al, NeurIPS 2019 (논문, 코드) 요약 Off-policy RL은 샘플링 관점에서 효율적인 학습을 위해서 다른 policy (behavior policy)로부터 수집한 데이터로부터 경험을 배우는데 초점을 맞추지만, Q-learning이나 Actor-Critic 기반의 off-policy Approximate dynamic programming 기법은 학습시 사용된 데이터와 실제 데이터간의 분포가 다른 문제로 인해서 on-policy data를 추가로 활용하지 않고서는 성능을 개선하기가 어..
다루고 있는 음성 인식 시스템이 차안에서 발생한 음성 데이터에 대해서 더 많이 필요로 한다. 운전중에 많은 데이터를 수집하는 것보다는 더 쉬운 방법이 있다. 바로 주어진 데이터를 인위적으로 합성하는 것이다. 만약 차 소음이나 거리 소음에 대한 음성 데이터를 많이 가지고 있다고 가정해보자. 몇몇 사이트에선 그 데이터를 다운로드 받을 수 있다. 그리고 조용방에서 사람들이 이야기하는 학습 데이터도 많이 가지고 있다고 가정해보자. 만약 사람이 대화하는 음성 데이터에다 차/거리 소음 데이터를 "추가"한다면, 시끄러운 차 안에서 사람이 대화하는 것에 대한 음성 데이터를 얻을 수 있을 것이다. 이런 과정을 사용해서 우리는 해당 데이터들을 마치 차안에서 얻은 데이터인 것처럼 "합성"(synthesize)시킬 수 있다...
음성 인식 시스템을 개발하고 있는데, 학습 데이터나 학습 개발 데이터 상에서는 잘 동작하는데, 개발 데이터 상에서는 잘 동작하지 않는다고 가정해보자. 그러면 데이터 불일치(data mismatch) 현상이 있는 것인데, 이 때 어떻게 해야 할까? 본인이 추천하는 방법은: 1) 학습 데이터와 개발 데이터 사이에 어떤 데이터 특성이 다른지를 이해할 것2) 알고리즘 상에서 문제가 발생하는 개발 데이터에 조금 더 적합한 학습 데이터를 조금 더 수집할 것 예를 들어, 음성 인식의 개발 데이터에서 오류 평가를 수행하고 있다고 가정해보자: 아마 처음에는 100개의 데이터에 대해서 일일이 평가를 수행할 것이고, 알고리즘이 어디서 문제가 생기는지를 이해하려고 할 것이다. 아마 개발 데이터에 포함되어 있는 대부분의 음성 ..
만약 이전과 같이 당신이 만든 고양이 감별기의 학습 데이터로써 10000개 정도의 유저가 업로드한 이미지를 포함하고 있다고 가정하자. 이 데이터는 별도로 분리된 개발/테스트 데이터와 같이 같은 분포를 띄고 있으며, 잘 동작하는 여부를 결정하는 분포를 나타내고 있다. 추가로 인터넷으로부터 다운로드받은 20000개 이미지가 있다. 그러면 알고리즘에 대한 학습 데이터로 20000+10000=30000개의 이미지를 모두 사용해야 할까, 아니면 알고리즘에 외부 영향을 주는 것을 막기 위해 20000개의 인터넷 이미지는 배제하는 것이 좋을까? (간단한 linear classifier로 구성된, 손으로 직접 만든 영상 처리와 같은) 초창기에 나왔던 학습 알고리즘을 쓸 때에는 이렇게 다른 데이터를 합쳐서 사용할 경우 ..
이전에 만든 고양이 분별기를 사용하는 유저들이 10000개 정도의 이미지를 업로드했고, 당신이 각 이미지들이 고양이가 포함되어 있는지 아닌지를 일일이 구별했다고 해보자. 또한 인터넷으로부터 다운로드 받은 이미지가 200000개 정도 있다고 해보자. 이때 학습 데이터와 개발 데이터, 테스트 데이터는 어떻게 정의할 수 있을까? 유저가 올린 10000개의 이미지가 실제로는 분별기가 잘 동작했는지를 나타내는 데이터의 분포를 나타내고 있으므로 아마 이 데이터들을 개발 데이터와 테스트 데이터로 활용할 것이다. 만약 데이터가 아주 많이 필요로 하는(data-hungry) 딥러닝 알고리즘을 학습시킨다면, 200000개의 인터넷 이미지들을 학습하는데 추가로 필요할 것이다. 이러면 학습 데이터와 개발/테스트 데이터는 각각..
- Total
- Today
- Yesterday
- Kinect SDK
- Policy Gradient
- PowerPoint
- 한빛미디어
- RL
- SketchFlow
- Offline RL
- Pipeline
- Expression Blend 4
- windows 8
- bias
- ai
- Gan
- processing
- Variance
- Kinect
- reward
- DepthStream
- Windows Phone 7
- dynamic programming
- ColorStream
- 딥러닝
- Off-policy
- TensorFlow Lite
- Distribution
- Kinect for windows
- 파이썬
- 강화학습
- arduino
- End-To-End
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |