티스토리 뷰
만약 새로운 스팸메일 탐지 시스템을 만들고 싶다면, 몇가지 아이디어를 떠올릴 수 있을 것이다.
- 엄청난 량의 학습시킬 스팸 메일을 수집한다. 예를 들어 "꿀단지" 같은 것을 만드는 것인데, 흔히 알려져 있는 스팸 출처에 가짜 이메일 계정을 보내면, 자동적으로 출처가 그 계정으로 보낸 스팸 메일들을 수집할 수 있을 것이다.
- 메일안에 있는 문맥을 이해할 수 있는 기능을 개발한다.
- 이메일의 헤더를 인식시킬 수 있는 기능을 만들어 스팸 메일들이 어떤 서버를 거쳐서 오는지를 보여준다.
- 기타 등등...
나도 스팸 메일 탐지와 관련해서 많이 일해봤지만 여전히 위의 방법 중 어떤 방법을 선택하는지 어려움을 겪고 있다. 아마 당신도 해당 영역의 전문가가 아니라면 더 어려울 것이다.
그렇기 때문에 시작부터 완벽한 시스템을 설계하고 만들려고 하지마라. 대신 가장 기본적인 시스템을 빠르게 만들고 학습시켜라. 대략 며칠만에 만들 수 있을 만큼 말이다. (사실 이 말은 뭔가 학술적인 논문을 준비하는 사람보다는 실제 AI관련 어플리케이션을 만든 사람에게 전해주고 싶은 말이다.) 비록 만들어진 기본적인 시스템이 당신이 만들수 있는 최선의 시스템과 거리가 있을지라도, 기본 시스템의 기능이 잘 동작하는지를 확인해보는데 유용하다. 이걸 통해서 당신의 시간을 투자할 만큼 가치가 있는 방향을 찾는데 힌트를 빠르게 얻을 수 있을 것이다. 이어지는 장에서 이런 힌트를 읽는 방법에 대해서 소개하고자 한다.
< 해당 포스트는 Andrew Ng의 Machine Learning Yearning 중 chapter 13. Build your first system quickly, then iterate을 번역한 내용입니다.>
'Study > AI' 카테고리의 다른 글
[MLY] 개발 데이터상에 잘못 라벨링된 것 정리하기 (0) | 2018.09.08 |
---|---|
[MLY] 오류 평가 간에 여러개의 아이디어를 병렬로 평가하기 (0) | 2018.09.06 |
[MLY] 오류 평가: 아이디어 검증을 위한 개발 데이터 예제 탐색 (0) | 2018.09.06 |
[MLY] 개발 환경과 테스트 데이터를 설정하는 데 있어 고려해야 할 사항들 (0) | 2018.09.05 |
[MLY] 개발/테스트 데이터와 평가 지표를 바꿔야 하는 경우 (0) | 2018.09.05 |
[MLY] 개발 데이터와 지표는 반복작업을 빠르게 해준다. (0) | 2018.09.03 |
[MLY] 최적화 지표와 만족 지표 (0) | 2018.09.02 |
- Total
- Today
- Yesterday
- Kinect
- Policy Gradient
- Distribution
- arduino
- Expression Blend 4
- 딥러닝
- Offline RL
- DepthStream
- 파이썬
- ColorStream
- PowerPoint
- 한빛미디어
- Windows Phone 7
- bias
- Variance
- Kinect SDK
- Kinect for windows
- SketchFlow
- processing
- windows 8
- Off-policy
- 강화학습
- ai
- Gan
- reward
- Pipeline
- TensorFlow Lite
- End-To-End
- dynamic programming
- RL
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |