티스토리 뷰
만약 학습 데이터와 개발/테스트 데이터의 분포가 다른 상태에서 머신러닝을 적용한다고 가정해보자. 앞에서 다룬대로 하면 학습 데이터는 인터넷 이미지와 모바일 이미지를 포함한 것이고, 개발/테스트 데이터는 모바일 이미지만 포함한 것이다. 하지만 알고리즘은 잘 동작하지 않을 텐데, 아마 생각한 것보다 개발/테스트 데이터 오류가 많이 발생해서 일 것이다. 이렇게 잘 못되는 몇가지 가능성들이 있다:
1. 학습 데이터 상에서는 잘 동작하지 않는다. 이 문제는 아마 학습 데이터 분포상의 high (avoidance) bias가 발생한 것이다.
2. 학습 데이터 상에서는 잘 동작하는데, 학습 데이터와 같은 분포로부터 나온 미지의 데이터 상에서는 일반화가 잘 되지 않는 현상이 있을 수 있다. 이 건 high variance인 것이다.
3. 학습 데이터와 동일한 분포에서 가져온 새로운 데이터 상에서는 일반화가 잘 되지만, 개발/테스트 데이터에서 가져온 데이터에서는 일반화가 안되는 현상이 있다. 이런 문제를 데이터 불일치(data mismatch)라고 부르는데, 이는 학습 데이터가 개발/테스트 데이터와 잘 어울리지 않기 때문에 발생하는 것이다.
예를 들어, 인간이 고양이 인식 작업에서 거의 완벽에 가까운 성능을 보여줬다고 치자. 머신러닝 알고리즘도 다음의 성능을 얻을 수 있다.
- 학습 데이터 상에서의 1% 오류
- 학습 데이터와 같은 분포에서 가져오되, 알고리즘이 경험하지 않은 데이터 상에서의 1.5% 오류
- 개발 데이터 상에서의 10% 오류
위와 같은 경우 확실히 data mismatch 문제를 경험하고 있는 것이다. 이를 해결하기 위해서, 아마 개발/테스트 데이터와 좀 더 유사한 학습 데이터를 만들려 노력할 것이다. 이런 방식에 대해서는 추후에 다뤄보고자 한다.
앞에서 소개한 1~3번 문제로부터 알고리즘의 성능이 저하는 되는 요인에 대해서 진단하기 위해서는 일단 다른 데이터를 활용하는 것이 유용할 것이다. 자세히 말하자면, 알고리즘한테 가용한 학습 데이터를 모두 주는 것보다는 학습 데이터를 두 개의 군으로 나눌 수 있다: 하나는 실제 알고리즘이 학습을 수행할 학습 데이터 군이고, 다른 하나는 우리가 "학습 개발"(training dev) 데이터라고 부르는 것인데, 이것으로는 학습시키지 않을 것이다.
이제 우리는 총 4개의 데이터를 가지게 된다:
- 학습 데이터(training set)
: 이 데이터는 (인터넷 이미지+모바일 이미지와 같은) 알고리즘이 직접 학습하게 될 데이터이다. 이 데이터는 (개발/테스트 데이터 분포와 같이) 우리가 실질적으로 신경써야할 것과 같은 분포를 띄지 않아도 된다.
- 학습 개발 데이터(training dev set)
: 이 데이터는 (인터넷 이미지+모바일 이미지와 같은) 학습 데이터와 같은 분포를 띄고 있다. 보통은 학습 데이터보다는 작은데, 이 데이터는 알고리즘의 학습 진척을 평가하고 추적하기에 충분한 형태만 되면 된다.
- 개발 데이터(dev set)
: 이 데이터는 테스트 데이터와 같은 분포를 띌텐데, 이는 (모바일 이미지와 같이) 우리가 궁극적으로 신경써야할 데이터의 분포를 반영하게 된다.
- 테스트 데이터(test set)
: 이 데이터는 개발 데이터와 같은 분포를 띈다.(모바일 이미지)
위의 4개의 데이터를 활용해서, 다음 항목을 평가할 수 있다.
- 학습 데이터에 의해서 측정할 수 있는 학습 오류
- 학습 데이터에 의해서 학습 데이터에서 뽑아져 나온 새로운 데이터를 일반화시킬 수 있는 알고리즘의 능력
- 개발/테스트 데이터에 의해서 측정할 수 있는, 알고리즘의 성능
앞의 5~7장에서 다뤘던 개발 데이터의 크기를 선정하는 데에 대한 가이드라인의 대부분도 학습 개발 데이터에 적용시킬 수 있다.
< 해당 포스트는 Andrew Ng의 Machine Learning Yearning 중 chapter 40. Generalizing from the training set to the dev set를 번역한 내용입니다.>
'Study > AI' 카테고리의 다른 글
[MLY] 인위적 데이터 합성 (0) | 2018.10.05 |
---|---|
[MLY] 데이터 불일치 해결하기 (0) | 2018.10.05 |
[MLY] Bias, Variance, Data mismatch 오류 확인하기 (0) | 2018.10.05 |
[MLY] 데이터에 가중치 부여하기 (0) | 2018.10.03 |
[MLY] 모순된 데이터를 넣을지 여부를 결정하는 방법 (0) | 2018.10.03 |
[MLY] 당신이 가진 데이터 모두를 사용해야 할지 여부를 결정하는 방법 (0) | 2018.10.02 |
[MLY] 각각 다른 분포상에서 train과 test를 해야 되는 경우 (0) | 2018.10.01 |
- Total
- Today
- Yesterday
- 강화학습
- 한빛미디어
- Expression Blend 4
- reward
- Off-policy
- Kinect SDK
- RL
- arduino
- SketchFlow
- bias
- DepthStream
- Policy Gradient
- Distribution
- ColorStream
- Kinect
- End-To-End
- 파이썬
- windows 8
- Kinect for windows
- 딥러닝
- Windows Phone 7
- dynamic programming
- Offline RL
- PowerPoint
- Gan
- Pipeline
- Variance
- processing
- TensorFlow Lite
- ai
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |