만약 학습 데이터와 개발/테스트 데이터의 분포가 다른 상태에서 머신러닝을 적용한다고 가정해보자. 앞에서 다룬대로 하면 학습 데이터는 인터넷 이미지와 모바일 이미지를 포함한 것이고, 개발/테스트 데이터는 모바일 이미지만 포함한 것이다. 하지만 알고리즘은 잘 동작하지 않을 텐데, 아마 생각한 것보다 개발/테스트 데이터 오류가 많이 발생해서 일 것이다. 이렇게 잘 못되는 몇가지 가능성들이 있다: 1. 학습 데이터 상에서는 잘 동작하지 않는다. 이 문제는 아마 학습 데이터 분포상의 high (avoidance) bias가 발생한 것이다. 2. 학습 데이터 상에서는 잘 동작하는데, 학습 데이터와 같은 분포로부터 나온 미지의 데이터 상에서는 일반화가 잘 되지 않는 현상이 있을 수 있다. 이 건 high varian..
만약 200000개의 이미지를 인터넷으로부터 받고, 5000개의 이미지를 모바일 앱 유저로부터 받았다고 가정해보자. 데이터 사이즈 비율은 40:1 정도가 된다. 이론적으로는 충분히 큰 신경망을 만들고 205000개의 이미지를 충분히 학습시켰다면, 인터넷 이미지와 모바일 이미지 상에서 잘 동작하는 알고리즘을 만드는데 지장이 없다. 그러나 실전에서 모바일 이미지보다 인터넷 이미지가 40배 정도 더 많은 것은 단순히 5000개의 이미지만을 가지고 학습하는 것에 비하여 두 모델을 학습하는데 있어 40배(나 그 이상의) 연산 리소스를 사용해야 하는 것을 의미한다. 만약 그걸 감당할 만큼 충분한 연산 리소스가 없다면, 인터넷 이미지의 비율을 타협할 수 있을 만큼 낮춰야 한다.예를 들어 최적화를 하는 데 있어서 sq..
만약 뉴욕시의 집 값을 예측하는 것을 학습시키고 싶다고 가정하자, 집의 크기(입력값 x)가 주어지면, 이를 바탕으로 집 가격(출력값 y)을 예측하길 원할 것이다. 뉴욕시의 집값은 매우 높다. 만약 미시건주의 디트로이트시의 집 값에 대한 정보를 가지고 있는데, 해당 집 값은 뉴욕시의 집값보다 더 낮다고 가정해보자. 이 데이터를 학습 데이터로 포함시킬 수 있을까? 같은 크기의 x가 주어졌을 때, 집 값 y는 해당 집이 뉴욕시에 있냐, 디트로이트시에 있냐에 따라서 매우 다르게 나올 수 있다. 만약 뉴욕시의 집값을 예측하는 것에 대해서만 신경써야 한다면, 위와 같이 두개의 데이터를 사용하게 되면 성능이 안 좋아질 것이다. 이런 경우에는 모순된 디트로이트시의 데이터는 빼버리는 것이 더 낫다. 위와 같은 뉴욕시와 ..
- Total
- Today
- Yesterday
- Offline RL
- processing
- bias
- Kinect
- Expression Blend 4
- Variance
- Python
- arduino
- Policy Gradient
- reward
- Pipeline
- 파이썬
- PowerPoint
- TensorFlow Lite
- Distribution
- DepthStream
- Kinect SDK
- 강화학습
- SketchFlow
- 딥러닝
- End-To-End
- ColorStream
- Kinect for windows
- windows 8
- Off-policy
- RL
- Windows Phone 7
- dynamic programming
- Gan
- 한빛미디어
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |