만약 20%의 오류를 가지는 5000개의 큰 개발 데이터가 있다고 가정해보자. 그러면 지금 사용하고 있는 알고리즘은 1000개 정도의 개발 데이터를 잘못 분류하고 있는 것이다. 이 1000개 이미지를 일일히 확인하려면 시간이 많이 걸리므로, 그 데이터들을 모두 오류 평가시 사용하지 않기로 결정할 것이다. 이 케이스에서, 나는 보통 개발 데이터를 크게 두개의 집합으로 나누고, 하나는 유심히 보고, 다른 하나는 보지 않는다. 그리고 나서 유심히 볼 집합에 대해서만 조금더 자주 학습을 시키고, 유심히 보지 않는 집합은 내부 parameter를 수정하는데 활용하곤 한다. 앞에서 다룬 예제를 계속 살펴보면 우리가 쓰고 있는 알고리즘은 전체 5000개의 개발 데이터 중에서 1000개를 잘 못 분류하고 있다. 우리가..
오류 평가를 하는 동안, 아마 개발 데이터 상에서 잘못 라벨링(mislabeled)된 것들이 몇몇 있는 것을 확인할 수 있을 것이다. 여기서 잘못 "라벨링"이 되었다는 것은, 이미 알고리즘을 적용하기 전부터 사람에 의해서 이미 잘못 라벨링이 된 이미지들을 말하는 것이다. 예를 들어 (x, y)라는 데이터가 있을 때 y에 대해서 잘못된 값을 가지고 있는 것이다. 다른 예를 들자면, 고양이가 아닌 사진들이 고양이가 포함되어 있는 것처럼 잘못 라벨링이 되어 있는 케이스가 있을 것이다. 잘못 라벨링된 이미지의 비율이 중요하다고 여겨지면, 해당 데이터의 비율에 대한 카테고리를 만들고 한번 살펴봐라:Image Dog Great Cat Blurry Mislabeled Comments ... 98 O 배경에 있는 고양..
- Total
- Today
- Yesterday
- dynamic programming
- SketchFlow
- Kinect SDK
- Kinect
- Off-policy
- 한빛미디어
- arduino
- bias
- Kinect for windows
- Gan
- 강화학습
- Offline RL
- Expression Blend 4
- 딥러닝
- Policy Gradient
- Pipeline
- TensorFlow Lite
- End-To-End
- Windows Phone 7
- Variance
- Python
- DepthStream
- ColorStream
- windows 8
- processing
- Distribution
- 파이썬
- reward
- RL
- PowerPoint
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |