[MLY] 학습 데이터부터 개발 데이터까지 일반화하는 방법

티스토리 뷰

Study/AI

[MLY] 학습 데이터부터 개발 데이터까지 일반화하는 방법

생각많은 소심남 2018. 10. 3. 17:31

만약 학습 데이터와 개발/테스트 데이터의 분포가 다른 상태에서 머신러닝을 적용한다고 가정해보자. 앞에서 다룬대로 하면 학습 데이터는 인터넷 이미지와 모바일 이미지를 포함한 것이고, 개발/테스트 데이터는 모바일 이미지만 포함한 것이다. 하지만 알고리즘은 잘 동작하지 않을 텐데, 아마 생각한 것보다 개발/테스트 데이터 오류가 많이 발생해서 일 것이다. 이렇게 잘 못되는 몇가지 가능성들이 있다:

1. 학습 데이터 상에서는 잘 동작하지 않는다. 이 문제는 아마 학습 데이터 분포상의 high (avoidance) bias가 발생한 것이다.

2. 학습 데이터 상에서는 잘 동작하는데, 학습 데이터와 같은 분포로부터 나온 미지의 데이터 상에서는 일반화가 잘 되지 않는 현상이 있을 수 있다. 이 건 high variance인 것이다.

3. 학습 데이터와 동일한 분포에서 가져온 새로운 데이터 상에서는 일반화가 잘 되지만, 개발/테스트 데이터에서 가져온 데이터에서는 일반화가 안되는 현상이 있다. 이런 문제를 데이터 불일치(data mismatch)라고 부르는데, 이는 학습 데이터가 개발/테스트 데이터와 잘 어울리지 않기 때문에 발생하는 것이다.

예를 들어, 인간이 고양이 인식 작업에서 거의 완벽에 가까운 성능을 보여줬다고 치자. 머신러닝 알고리즘도 다음의 성능을 얻을 수 있다.

- 학습 데이터 상에서의 1% 오류

- 학습 데이터와 같은 분포에서 가져오되, 알고리즘이 경험하지 않은 데이터 상에서의 1.5% 오류

- 개발 데이터 상에서의 10% 오류

위와 같은 경우 확실히 data mismatch 문제를 경험하고 있는 것이다. 이를 해결하기 위해서, 아마 개발/테스트 데이터와 좀 더 유사한 학습 데이터를 만들려 노력할 것이다. 이런 방식에 대해서는 추후에 다뤄보고자 한다.

앞에서 소개한 1~3번 문제로부터 알고리즘의 성능이 저하는 되는 요인에 대해서 진단하기 위해서는 일단 다른 데이터를 활용하는 것이 유용할 것이다. 자세히 말하자면, 알고리즘한테 가용한 학습 데이터를 모두 주는 것보다는 학습 데이터를 두 개의 군으로 나눌 수 있다: 하나는 실제 알고리즘이 학습을 수행할 학습 데이터 군이고, 다른 하나는 우리가 "학습 개발"(training dev) 데이터라고 부르는 것인데, 이것으로는 학습시키지 않을 것이다.

이제 우리는 총 4개의 데이터를 가지게 된다:

- 학습 데이터(training set)
: 이 데이터는 (인터넷 이미지+모바일 이미지와 같은) 알고리즘이 직접 학습하게 될 데이터이다. 이 데이터는 (개발/테스트 데이터 분포와 같이) 우리가 실질적으로 신경써야할 것과 같은 분포를 띄지 않아도 된다.

- 학습 개발 데이터(training dev set)
: 이 데이터는 (인터넷 이미지+모바일 이미지와 같은) 학습 데이터와 같은 분포를 띄고 있다. 보통은 학습 데이터보다는 작은데, 이 데이터는 알고리즘의 학습 진척을 평가하고 추적하기에 충분한 형태만 되면 된다.

- 개발 데이터(dev set)
: 이 데이터는 테스트 데이터와 같은 분포를 띌텐데, 이는 (모바일 이미지와 같이) 우리가 궁극적으로 신경써야할 데이터의 분포를 반영하게 된다.

- 테스트 데이터(test set)
: 이 데이터는 개발 데이터와 같은 분포를 띈다.(모바일 이미지)

위의 4개의 데이터를 활용해서, 다음 항목을 평가할 수 있다.

- 학습 데이터에 의해서 측정할 수 있는 학습 오류

- 학습 데이터에 의해서 학습 데이터에서 뽑아져 나온 새로운 데이터를 일반화시킬 수 있는 알고리즘의 능력

- 개발/테스트 데이터에 의해서 측정할 수 있는, 알고리즘의 성능

앞의 5~7장에서 다뤘던 개발 데이터의 크기를 선정하는 데에 대한 가이드라인의 대부분도 학습 개발 데이터에 적용시킬 수 있다.

< 해당 포스트는 Andrew Ng의 Machine Learning Yearning 중 chapter 40. Generalizing from the training set to the dev set를 번역한 내용입니다.>

저작자표시 비영리 변경금지 (새창열림)

'Study > AI' 카테고리의 다른 글

[MLY] 인위적 데이터 합성 (0)	2018.10.05
[MLY] 데이터 불일치 해결하기 (0)	2018.10.05
[MLY] Bias, Variance, Data mismatch 오류 확인하기 (0)	2018.10.05
[MLY] 데이터에 가중치 부여하기 (0)	2018.10.03
[MLY] 모순된 데이터를 넣을지 여부를 결정하는 방법 (0)	2018.10.03
[MLY] 당신이 가진 데이터 모두를 사용해야 할지 여부를 결정하는 방법 (0)	2018.10.02
[MLY] 각각 다른 분포상에서 train과 test를 해야 되는 경우 (0)	2018.10.01

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

chans_jupyter

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

자신에 대한 고찰

티스토리 뷰

[MLY] 학습 데이터부터 개발 데이터까지 일반화하는 방법

'Study > AI' 카테고리의 다른 글

티스토리툴바