지금까지 오류가 avoidable bias와 variance에 얼마나 영향을 줄 수 있는 평가하는 몇가지 방법에 대해서 알아봤다. 먼저 이상적인 오류율을 측정하고, 학습데이터에 대한 오류율과 개발/테스트 데이터에 대한 오류율을 계산했다. 이런 방법보다 더 유용할 수 있는 방법인 학습 곡선 출력에 대해서 다뤄보고자 한다. 학습 곡선은 보통 학습 데이터 대비 개발 데이터의 오류율을 출력한 형태를 말한다. 이를 출력하기 위해서는 다른 크기의 학습데이터를 사용해서 알고리즘을 돌려봐야 한다. 만약 1000개 정도의 데이터가 있다면, 100개, 200개, 300개, 1000개까지의 데이터에 대해서 각각 알고리즘을 적용해봐야 한다는 것이다. 그러면 학습 데이터 크기별로 개발 데이터의 오류율을 출력할 수 있게 될 것이..
만약 만든 알고리즘이 high variance에 의해서 어려움을 겪고 있다면, 아래의 방법을 고려해봐라: - 학습 데이터를 추가할 것 : 이 방법은 만약 당신이 데이터에 대해서 많이 접근할 수 있고, 이를 처리할 연산 능력이 충분한 한, Variance 문제를 해결할 수 있는 가장 간단하고 신뢰할 만한 방법이다. - 정규화 방법을 적용해볼 것 (L2 regularization, L1 regularization, dropout) : 이 방법은 variance를 줄여주지만, bias를 높이는 부작용이 있다. - Early Stopping을 적용해볼 것 (예를 들어 개발 데이터 오류에 기반해서 gradient descent를 빨리 멈추게 한다던지...) : 이 방법은 variance를 줄여주지만 bias를 높..
개발/테스트 데이터 상에서 잘 동작하기를 기대하기 전에 먼저 학습 데이터 상에서 알고리즘이 잘 동작해야 한다. 이전에 다뤘던 high bias 문제를 해결하는 방법에 덧붙여서, 나는 때때로 eyeball dev set에서 수행하는 오류 평가와 비슷한 형태를 가진 오류 평가를 학습 데이터 상에서도 수행해본다. 만약 지금 사용하고 있는 학습 데이터가 high bias를 가진다면 이런 방법은 유용하게 쓰일 것이다. 예를 들어 만든 알고리즘이 학습 데이터에 맞지 않은 경우 말이다. 예를 들어, 지금 음성 인식 시스템을 만들고 있고, 지원자로부터 학습 데이터로 쓰일 음성 데이터를 모았다고 가정해보자. 만약 지금 만든 시스템이 학습 데이터 상에서 잘 동작하지 않고 있다면, 학습 데이터 상에서 주로 발생하는 오류의 ..
- Total
- Today
- Yesterday
- Windows Phone 7
- End-To-End
- Variance
- reward
- Python
- PowerPoint
- Pipeline
- bias
- processing
- Off-policy
- 파이썬
- Kinect SDK
- Policy Gradient
- Gan
- Kinect for windows
- Kinect
- RL
- Distribution
- DepthStream
- arduino
- SketchFlow
- Offline RL
- windows 8
- 강화학습
- 딥러닝
- 한빛미디어
- ColorStream
- dynamic programming
- TensorFlow Lite
- Expression Blend 4
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |