티스토리 뷰

Study/MOOC

[MOOC] MITx: 15.071x The Analytics Edge

생각많은 소심남 2015. 5. 31. 17:51

일전에도 말했지만, 계속 통계쪽에 관심을 가지고 공부하고 있다. 사실 요즘에 뜨고 있는 기술 중 하나인 인공지능이나 머신러닝도 어떻게 보면 빅데이터를 통해 수집된 데이터를 통계 툴을 활용해서 예측값을 보여주기도 하고 혹은 visualization을 할 수도 있는 것이다. 이런 것들을 가르쳐주는 기초 통계 수업들은 참 많은데, 이걸 어떻게 하면 실생활에 적용시킬 수 있는가에 대해서는 뭔가 명확하게 설명해주는 수업이 없었다. 그런데 얼마전에 edX에서 그런 내용을 다루는 수업을 열었었고, 한 3달동안 수강한 것 같다. 마침 얼마전 종강이 되서 한번 평을 적어보고자 한다.



 수업 이름은 The Analytics Edge 혹은 TAE라도 부른다. 이 수업에서도 여타 수업과 마찬가지로 머신러닝 수업에서 잘 다루는 Linear Regression이나 clustering, optimization에 대한 내용을 다룬다. 그런데 여기서는 뭔가를 예측하는 걸 추구하는게 아니라, 뭔가 데이터를 통해서 사용자가 쉽게 이해할 수 있도록 자료를 정리하고 시각화하는 방향으로 강의가 진행된다. 그래서 아마 이걸 통해서 뭔가 머신러닝쪽으로 응용해보려는 사람에게는 내가 뭘 배우고 있는건가 싶은 느낌이 들 수도 있다. 하지만, 거기에 필요한 기초지식을 추구하려는 사람에게는 크게 도움이 되지 않을까 싶다. 

 실습 과제로는 요새 가장 쉽게 쓸 수 있는 통계툴이 R인지라 R을 활용한 과제들을 실제로 실습하고 결과를 내보이는 것을 진행한다. 물론 딱 R에만 국한되어 있는게 아니라, Optimization을 구할때는 Microsoft Excel이나 LibreOffice의 Calc에 내장되어 있는 Solver를 가지고 사용자가 추구하는 목적에 맞는 해를 구하는 과정을 소개해준다. 이 파트에서는 예를 들어서 항공사의 수익율을 높이기 위해서 비행기의 티켓 가격을 어떻게 할당해야 할지 그에 최적화된 해를 구하는 것을 실제로 해봤다. (사실 optimization라는 단어 자체가 되게 심오해서 뭔가 접근하기 힘든 부분이 있을거라고 생각했는데, 막상 접하니까 별게 아니었다. 그냥 컴퓨터를 이용해서 반복적으로 테스트하고 그 중 적당한 값을 보이는 것일뿐...)

 강의 내용은 대부분은 실생활에서 이런 통계적인 기법들이 어떻게 다뤄지는지를 소개하면서 간단하게 실습해볼 수 있는 방향으로 제시된다. 예를 들어서 와인생산량을 Linear Regression을 통해서 예측하고 이 생산량에 영향을 줄 수 있는 변수와 그에 대한 우선순위를 정하는 방법이라던가, 영화 Moneyball에서 나왔던 것처럼 야구의 통계를 연봉과 직결시킬 때 어떤 부분이 가장 큰 영향을 끼치는지는 보여준다. 또 이전 포스트에서도 잠깐 소개한 적도 있는데, IBM의 watson이 jeopardy에 참가해서 사람과 대결하는 부분도 소개하면서 Text Analytics와 연계된 부분도 설명해줬다. 이처럼 딱 뭐랄까 진짜 딱딱할 수도 있는 내용들을 실생활의 예제와 함께 소개하면서 강의가 흥미롭게 진행되었던거 같다.

 개인적으로는 이강의의 핵심 중 하는 바로 Kaggle Competition이 아니었나 싶다.


하는 일이 너무 바빠서 참가하지는 못했지만, 이 강의에서 Kaggle내에 과제를 올리고 그 성적을 전체 과목의 성적으로 반영하는 게 있었다. Kaggle이라면 보통 세상의 난제를 제시고 통계적 기법을 통해서 해결한 사람한테 금전적이나 채용의 혜택을 주는 사이트를 말하는데, 강의에선 배운 내용을 토대로 특정 주제에 관해서 과제를 해결하는 과정을 제시했다. 내가 기억하기론 newyork Times의 기사를 올리고 그 기사의 특정 부분을 Text Analytic method를 통해서 분석하는 내용의 과제였던거 같은데, 많은 수강자들이 실제로 그 과제에 참석하고 해결하려고 했던거 같다. 과제에 참가하지 못해서 조금 아쉬운 부분이긴 하지만, 이처럼 배운 내용을 토대로 이렇게 실제 과제에 적용시켜 볼 수 있다는 점이 다른 강의와는 조금 다른 부분이었던거 같다. (실제로 포럼 글을 보니까 여기서 협업했던 사람들이 좋은 관계를 맺고 또 다른 과제를 해결하려고 하는거 같았다...) 


아무튼 강의가 끝났다. 많은 수강자들이 이 강의에 대해서 좋게 평가하고, 나도 강의를 들으면서 정말 재미있게 들었던 것 같다. 뭔가 일정이 순조로웠더라면 모든 과정에 참가하고 더 얻어가는게 많았을텐데... 그래도 잘 마무리해서 인증서도 받았다.

 

 사실 제일 걱정이 되었던 부분은 과연 기초지식이 확고하지 않은 상태에서 과연 실생활에서 다뤄질 수 있는 문제를 해결할 수 있을까였는데, 그래도 이 강의를 통해서 그 부분이 일정부분 해소되었던 것 같았고, 생각보다 그렇게 고급 지식을 요구하지도 않았다. 어쩌면 강의에서 적용하기 쉽게 잘 가르쳐준 부분도 있겠지만, 그래도 기본적인 수학지식이나 어떻게 해결하겠다라는 방법론 적인 부분이 다져진 사람이라면 누구라도 들어도 좋을법한 강의였던것 같다. 딱 나를 위한 강의였다 싶었는데, 아마 이 글을 보고 그 강의를 듣는 사람도 그런 느낌이 들었으면 좋겠다.


* 참고로 이 강의는 6월 2일에 다시 열린다. 방학동안 이런 부분을 공부해보고 싶은 사람이라면 강의한번 들어볼 것을 적극 추천한다 :)

 https://www.edx.org/course/analytics-edge-mitx-15-071x-0

댓글