티스토리 뷰

Study/MOOC

[MOOC] Statistical Learning

생각많은 소심남 2015. 4. 8. 23:58


작년에 새웠던 올해 계획 중 하나는 통계를 제대로 배워보자는 것이었고, 그걸 통해서 기존에 다뤘던 논문 주제에 넣어보면 좋을 거 같다는게 내 궁극적인 목적이었다. 남들이 다 기계학습 기계학습 하지만, 사실 기계학습을 하려면 무엇보다도 통계에 대한 이해가 중요하다고 생각했었고, 그래서 들었던게 이 수업이었다.

 이 수업은 어쩌면 통계학을 배운 사람이 기계학습은 어떻게 써먹는 것일까 할때 도움이 될 수 있는 가장 최선의 강의가 아닐까 싶다. 반면 기계학습을 배우던 사람이, 그 기반인 통계가 무엇인지를 알고자 할때는 조금 어려울 거라고 생각한다. 나도 어떻게 보면 후자쪽으로 공부하면서 이 강의를 들었는데 가면 갈수록 강의 수준이나 과제에 부담을 많이 느꼈다. 일단 우선 강의에서 소개한 것처럼 Learning에 대한 기본적인 technique들, 예를 들어서 Regression, Reqularlization, Random Forest, SVM 같이 기계학습 수업이면 많이 다루는 주제들을 심도있게 다룬다. 이 식이 실제로 어떻게 도출되었는지는 수학적으로 증명하지는 않지만, 적어도 원론적으로 왜 식이 써져야 할지에 대해서는 설명을 해준다. 
(참고로 이 강의의 교수 중 한 사람인 Robert Tibshirani 는 기계학습을 배운 사람이라면 한번쯤 들어봤을 Lasso 를 제안했던 사람이다.)

 사실 강의 내용이 조금 어려운 점이 있긴 하지만, R을 배우고 있고, 뭔가 기계학습에 응용해보고 싶은 사람은 이 강의 교재였던 Introduction To Statistical Learning with Application in R (ISLR)을 꼭 읽어볼 것을 추천한다. 역시 저자들이 직접 원리를 설명하면서 그걸 R로 설명하는 방향으로 진행되는데 개인적으로는 R의 내용을 익히면서 바로 적용할 수 있어서 도움이 되었던 것 같다. 참고로 무료로 책원본과 source code를 공개했으니까 궁금한 사람은 링크에 한번 가보시길!


솔직히 회사 입사 초기에 강의 기간이 겹쳐있어서 제때 마칠 수 있으려나 싶었는데, 의지가 이끄는대로 그래도 마무리는 지을 수 있었다, 정말로 이런 분야에 대한 관심도 많고, 응용할 아이디어도 있는데, 나중에 진짜 어느정도 지식이 축적되면 여기에 공유할 수 있으면 좋겠다. (뭐랄까 내가 더 공부하고 싶은건, 시스템 내의 Resource를 어느정도 통계적으로 축적해서 분석하고 최고의 performance를 낸다? 말을 갖다 붙이면 Statistics in Computer System?) 그게 언제가 될지는 모르겠지만.. 그래도 먼 미래는 아닐거라고 본다. 

댓글