[MLY] Bias와 Variance의 예시들

티스토리 뷰

Study/AI

[MLY] Bias와 Variance의 예시들

생각많은 소심남 2018. 9. 10. 22:10

이전에 다뤘던 고양이 분류기를 보자. (인간과 같은) "이상적인" 분류기는 거의 완벽하게 고양이를 분류할 수 있어야 한다.

만약 개발한 알고리즘이 다음과 같이 동작한다고 보자:

- 학습 오류 = 1%
- 개발 오류 = 11%

여기엔 어떤 문제가 있을까? 이전 포스트에서 다룬 정의를 적용해보면, bias는 1% 이고, variance는 10%(11% - 1%) 라는 것을 알 수 있다. 결국 이건 high variance 특성을 띈다. 이 분류기는 매우 낮은 학습 오류를 가지지만 개발 데이터를 일반화시키기 어렵다. 이를 보통 overfitting이라고 부른다.

이제 다음과 같은 결과를 보자:

- 학습 오류 = 15%
- 개발 오류 = 16%

이때 bias는 15%, variance는 1%로 계산할 수 있다. 해당 분류기는 학습 데이터에 대해서는 15%의 오류를 가지는, 별로 안 좋은 성능을 보인다. 그런데 개발 데이터에 대한 오류는 학습 오류에 비해서 그렇게 많이 높지 않다. 이 분류기는 high bias를 가지지만, low variance를 가진다. 이런 경우를 알고리즘이 underfitting되었다고 표현한다.

다음 결과를 살펴보자:

- 학습 오류 = 15%
- 개발 오류 = 30%

이 때 bias는 15%, variance는 15%이다. 이 분류기는 high bias와 high variance를 가지는데, 학습 데이터에 대해서는 잘 동작하지 않으므로 high bias를 가진다고 볼 수 있다. 그리고 개발 데이터에서의 성능은 더 안좋기 때문에 이때는 high variance라고 할 수 있다. 이 분류기가 급격하게 overfitting될 수도 있고, underfitting될 수도 있기 때문에 앞에서 다뤘던 overfitting/underfitting 정의를 적용하기 어렵다.

마지막 결과를 살펴보면:

- 학습 오류 = 0.5%
- 개발 오류 = 1%

이때는 분류기가 잘 동작한 것이고, 낮은 bias와 낮은 variance를 가진다. 이렇게 좋은 성능을 얻은 것을 축하해줘라

< 해당 포스트는 Andrew Ng의 Machine Learning Yearning 중 chapter 21. Examples of Bias and Variance을 번역한 내용입니다.>

저작자표시 비영리 변경금지 (새창열림)

'Study > AI' 카테고리의 다른 글

[MLY] bias와 Variance간 tradeoff (0)	2018.09.12
[MLY] Bias와 Variance에 대한 해결 방법 (0)	2018.09.11
[MLY] 이상적인 오류율과의 비교 (0)	2018.09.11
[MLY] Bias와 Variance: 오류를 발생시키는 두개의 요인 (0)	2018.09.10
[MLY] 기본적인 오류 평가시 고려해야 할 사항 (0)	2018.09.10
[MLY] Eyeball 데이터와 Blackbox 데이터는 얼마나 커야 할까? (0)	2018.09.09
[MLY] 개발 데이터가 많은 경우, 두 집합으로 나누고 하나에서만 확인하기 (0)	2018.09.08

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

chans_jupyter

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

자신에 대한 고찰

티스토리 뷰

[MLY] Bias와 Variance의 예시들

'Study > AI' 카테고리의 다른 글

티스토리툴바