'2018/09/05 글 목록

만약 새로운 스팸메일 탐지 시스템을 만들고 싶다면, 몇가지 아이디어를 떠올릴 수 있을 것이다.- 엄청난 량의 학습시킬 스팸 메일을 수집한다. 예를 들어 "꿀단지" 같은 것을 만드는 것인데, 흔히 알려져 있는 스팸 출처에 가짜 이메일 계정을 보내면, 자동적으로 출처가 그 계정으로 보낸 스팸 메일들을 수집할 수 있을 것이다. - 메일안에 있는 문맥을 이해할 수 있는 기능을 개발한다. - 이메일의 헤더를 인식시킬 수 있는 기능을 만들어 스팸 메일들이 어떤 서버를 거쳐서 오는지를 보여준다. - 기타 등등... 나도 스팸 메일 탐지와 관련해서 많이 일해봤지만 여전히 위의 방법 중 어떤 방법을 선택하는지 어려움을 겪고 있다. 아마 당신도 해당 영역의 전문가가 아니라면 더 어려울 것이다. 그렇기 때문에 시작부터 완벽..

Study/AI 2018. 9. 5. 22:43

[MLY] 개발 환경과 테스트 데이터를 설정하는 데 있어 고려해야 할 사항들

- 당신이 미래에 얻길 원하고, 잘 동작하기를 원하는 성향을 잘 반영한 분포를 가지는 개발 데이터와 테스트 데이터를 취해라. 어쩌면 그 데이터들은 학습 데이터의 분포와 같지 않을 수도 있다.- 되도록이면 개발 데이터가 테스트 데이터와 분포가 같은 것들을 취하라.- 최적화할 수 있는 단수 형태의 평가 지표를 선정하라. 만약 신경써야할 goal이 여러 개라면, 그 값들을 하나의 공식을 통해서 결합하던가(예를 들어 여러 개의 오차 지표의 평균을 낸다던가) 혹은 만족 지표와 최적화 지표를 정의하던지의 방식을 적용해라.- 머신러닝 자체는 매우 반복적인 작업이기 때문에 어떤 적당한 알고리즘을 찾기 전에는 수많은 알고리즘들을 시도해볼 수 있을 것이다.- 개발/테스트 데이터를 가지고, 뭔가 단수 형태의 평가 지표를 가..

Study/AI 2018. 9. 5. 22:23

[MLY] 개발/테스트 데이터와 평가 지표를 바꿔야 하는 경우

보통 새로운 프로젝트를 시작할 때, 나는 빠르게 개발 데이터/테스트 데이터를 선정한다. 이를 통해서 우리가 추구하는 잘 정의된 목표를 찾을 수 있기 때문이다. 나도 보통 우리팀한테 초기의 개발/테스트 데이터와 초기 평가 지표를 찾아내는데 1주일을 넘지 않게 준다. 한가지 주제에 대해서 과도하게 생각하기 보다는 뭔가 완벽하지는 않지만 빠르게 얻어내는게 조금더 낫기 때문이다. 하지만 이 1주일이라는 시간은 우리가 만들고 있는 것을 발전시키는데 반영되지는 않는다. 예를 들어 스팸차단 시스템은 이미 발전된 형태의 딥러닝 시스템이다. 이렇게 발전된 형태의 시스템도 더 좋은 개발/테스트 데이터를 얻기 위해서 몇달을 쓰곤한다. 만약 나중에라도 초기에 잡은 개발/테스트 데이터나 평가 지표가 뭔가 초점에서 어긋났다는 것..

Study/AI 2018. 9. 5. 00:09

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

chans_jupyter

TAG more

« 2018/09 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

글 보관함

자신에 대한 고찰

티스토리툴바