티스토리 뷰

 만약 학습 데이터와 개발/테스트 데이터의 분포가 다른 상태에서 머신러닝을 적용한다고 가정해보자. 앞에서 다룬대로 하면 학습 데이터는 인터넷 이미지와 모바일 이미지를 포함한 것이고, 개발/테스트 데이터는 모바일 이미지만 포함한 것이다. 하지만 알고리즘은 잘 동작하지 않을 텐데, 아마 생각한 것보다 개발/테스트 데이터 오류가 많이 발생해서 일 것이다. 이렇게 잘 못되는 몇가지 가능성들이 있다:

 1. 학습 데이터 상에서는 잘 동작하지 않는다. 이 문제는 아마 학습 데이터 분포상의 high (avoidance) bias가 발생한 것이다.

 2. 학습 데이터 상에서는 잘 동작하는데, 학습 데이터와 같은 분포로부터 나온 미지의 데이터 상에서는 일반화가 잘 되지 않는 현상이 있을 수 있다. 이 건 high variance인 것이다.

 3. 학습 데이터와 동일한 분포에서 가져온 새로운 데이터 상에서는 일반화가 잘 되지만, 개발/테스트 데이터에서 가져온 데이터에서는 일반화가 안되는 현상이 있다. 이런 문제를 데이터 불일치(data mismatch)라고 부르는데, 이는 학습 데이터가 개발/테스트 데이터와 잘 어울리지 않기 때문에 발생하는 것이다.

 예를 들어, 인간이 고양이 인식 작업에서 거의 완벽에 가까운 성능을 보여줬다고 치자. 머신러닝 알고리즘도 다음의 성능을 얻을 수 있다.

 - 학습 데이터 상에서의 1% 오류

 - 학습 데이터와 같은 분포에서 가져오되, 알고리즘이 경험하지 않은 데이터 상에서의 1.5% 오류

 - 개발 데이터 상에서의 10% 오류

위와 같은 경우 확실히 data mismatch 문제를 경험하고 있는 것이다. 이를 해결하기 위해서, 아마 개발/테스트 데이터와 좀 더 유사한 학습 데이터를 만들려 노력할 것이다. 이런 방식에 대해서는 추후에 다뤄보고자 한다.

 앞에서 소개한 1~3번 문제로부터 알고리즘의 성능이 저하는 되는 요인에 대해서 진단하기 위해서는 일단 다른 데이터를 활용하는 것이 유용할 것이다. 자세히 말하자면, 알고리즘한테 가용한 학습 데이터를 모두 주는 것보다는 학습 데이터를 두 개의 군으로 나눌 수 있다: 하나는 실제 알고리즘이 학습을 수행할 학습 데이터 군이고, 다른 하나는 우리가 "학습 개발"(training dev) 데이터라고 부르는 것인데, 이것으로는 학습시키지 않을 것이다.

 이제 우리는 총 4개의 데이터를 가지게 된다:

 - 학습 데이터(training set)
 : 이 데이터는 (인터넷 이미지+모바일 이미지와 같은) 알고리즘이 직접 학습하게 될 데이터이다. 이 데이터는 (개발/테스트 데이터 분포와 같이) 우리가 실질적으로 신경써야할 것과 같은 분포를 띄지 않아도 된다.

 - 학습 개발 데이터(training dev set)
 : 이 데이터는 (인터넷 이미지+모바일 이미지와 같은) 학습 데이터와 같은 분포를 띄고 있다. 보통은 학습 데이터보다는 작은데, 이 데이터는 알고리즘의 학습 진척을 평가하고 추적하기에 충분한 형태만 되면 된다.

 - 개발 데이터(dev set)
 : 이 데이터는 테스트 데이터와 같은 분포를 띌텐데, 이는 (모바일 이미지와 같이) 우리가 궁극적으로 신경써야할 데이터의 분포를 반영하게 된다.

 - 테스트 데이터(test set)
 : 이 데이터는 개발 데이터와 같은 분포를 띈다.(모바일 이미지)

 위의 4개의 데이터를 활용해서, 다음 항목을 평가할 수 있다.

 - 학습 데이터에 의해서 측정할 수 있는 학습 오류

 - 학습 데이터에 의해서 학습 데이터에서 뽑아져 나온 새로운 데이터를 일반화시킬 수 있는 알고리즘의 능력

 - 개발/테스트 데이터에 의해서 측정할 수 있는, 알고리즘의 성능

앞의 5~7장에서 다뤘던 개발 데이터의 크기를 선정하는 데에 대한 가이드라인의 대부분도 학습 개발 데이터에 적용시킬 수 있다.

< 해당 포스트는 Andrew Ng의 Machine Learning Yearning 중 chapter 40. Generalizing from the training set to the dev set를 번역한 내용입니다.>

댓글