만약 새로운 스팸메일 탐지 시스템을 만들고 싶다면, 몇가지 아이디어를 떠올릴 수 있을 것이다.- 엄청난 량의 학습시킬 스팸 메일을 수집한다. 예를 들어 "꿀단지" 같은 것을 만드는 것인데, 흔히 알려져 있는 스팸 출처에 가짜 이메일 계정을 보내면, 자동적으로 출처가 그 계정으로 보낸 스팸 메일들을 수집할 수 있을 것이다. - 메일안에 있는 문맥을 이해할 수 있는 기능을 개발한다. - 이메일의 헤더를 인식시킬 수 있는 기능을 만들어 스팸 메일들이 어떤 서버를 거쳐서 오는지를 보여준다. - 기타 등등... 나도 스팸 메일 탐지와 관련해서 많이 일해봤지만 여전히 위의 방법 중 어떤 방법을 선택하는지 어려움을 겪고 있다. 아마 당신도 해당 영역의 전문가가 아니라면 더 어려울 것이다. 그렇기 때문에 시작부터 완벽..
- 당신이 미래에 얻길 원하고, 잘 동작하기를 원하는 성향을 잘 반영한 분포를 가지는 개발 데이터와 테스트 데이터를 취해라. 어쩌면 그 데이터들은 학습 데이터의 분포와 같지 않을 수도 있다.- 되도록이면 개발 데이터가 테스트 데이터와 분포가 같은 것들을 취하라.- 최적화할 수 있는 단수 형태의 평가 지표를 선정하라. 만약 신경써야할 goal이 여러 개라면, 그 값들을 하나의 공식을 통해서 결합하던가(예를 들어 여러 개의 오차 지표의 평균을 낸다던가) 혹은 만족 지표와 최적화 지표를 정의하던지의 방식을 적용해라.- 머신러닝 자체는 매우 반복적인 작업이기 때문에 어떤 적당한 알고리즘을 찾기 전에는 수많은 알고리즘들을 시도해볼 수 있을 것이다.- 개발/테스트 데이터를 가지고, 뭔가 단수 형태의 평가 지표를 가..
보통 새로운 프로젝트를 시작할 때, 나는 빠르게 개발 데이터/테스트 데이터를 선정한다. 이를 통해서 우리가 추구하는 잘 정의된 목표를 찾을 수 있기 때문이다. 나도 보통 우리팀한테 초기의 개발/테스트 데이터와 초기 평가 지표를 찾아내는데 1주일을 넘지 않게 준다. 한가지 주제에 대해서 과도하게 생각하기 보다는 뭔가 완벽하지는 않지만 빠르게 얻어내는게 조금더 낫기 때문이다. 하지만 이 1주일이라는 시간은 우리가 만들고 있는 것을 발전시키는데 반영되지는 않는다. 예를 들어 스팸차단 시스템은 이미 발전된 형태의 딥러닝 시스템이다. 이렇게 발전된 형태의 시스템도 더 좋은 개발/테스트 데이터를 얻기 위해서 몇달을 쓰곤한다. 만약 나중에라도 초기에 잡은 개발/테스트 데이터나 평가 지표가 뭔가 초점에서 어긋났다는 것..
- Total
- Today
- Yesterday
- reward
- 강화학습
- Offline RL
- TensorFlow Lite
- processing
- Kinect
- PowerPoint
- End-To-End
- Distribution
- Pipeline
- 한빛미디어
- Gan
- Kinect for windows
- 딥러닝
- SketchFlow
- Expression Blend 4
- Policy Gradient
- Windows Phone 7
- Variance
- bias
- arduino
- Python
- Off-policy
- RL
- windows 8
- 파이썬
- ColorStream
- Kinect SDK
- dynamic programming
- DepthStream
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |