티스토리 뷰


 현재 수강하고 있는 통계 과목 중에 하나였던 Sabermetric 강의가 끝났다. Sabermetric라고 하면 야구에 관한 데이터를 바탕으로 경기에 대한 통계를 내던가 혹은 미래의 결과에 대한 예측을 할 수 있게끔 하는 일종의 방법론 이다. 보통 통계학하면 고등학교 정규과정에 배웠던 확률과 통계처럼 매번 mean과 standard deviation을 구해서 distribution이 얼마나 되는지 하는 등의 복잡한 내용들 투성이었지만, sabermetric는 그런 데이터를 활용해서 야구라는 실생활에 적용한 케이스라고 보면 좋을 것 같다. 그래서 아마 야구에 관해서 관심이 있던가, 통계학이 실생활에서 어떻게 쓰이는지를 알고 싶은 사람한테는 좋은 강의가 아닐까 싶다. 실제로 sabermetrics를 토대로 뽑을 수 있는 데이터는 실제로 경기에 많이 쓰이고, 이에 대한 수요도 증가하는 추세다. 아마 영화 moneyball을 본 사람이라면 알 것이다.

 이 강의는 sabermetrics가 학문으로 발전하는 데 바탕이 되었던 boston University에서 진행되었고, 강의 내용이 크게 역사적 관점, 통계적 관점, 기술적 관점으로 나눠져서 진행되었다. 그중 통계적 관점에서는 우리가 야구 기사에서 볼 수 있던 OPS라던가  WAR, RR같은 용어에 대한 정의와 실제 데이터를 바탕으로 이를 계산하는 방법을 알려준다. 무엇보다도 이 강의가 다른 통계 바탕 강의보다도 더 주목받을 수 있었던 건(물론 sabermetrics를 다룬 것 자체가 여타 강의와는 확연하게 다르기는 하지만...) Lahmann Database라는 MLB에서 나오는 데이터베이스를 온라인으로 구축하고 이를 SQL과 R을 사용해서 분석하는 실습을 진행했던 게 아닐까 싶다. 아래는 실제로 강의 시간에 R을 사용해서 Runs Ratio와 Win Ratio, 즉 경기당 득점과 승패와의 연관성을 보기 위한 그래프를 출력한 것이다.


아마 통계를 배운 사람이라면 알겠지만 이렇게 상관관계가 직선으로 나오는 경우를 보통 correlation(또는 R^2)이 높다고 표현하고, 이를 토대로 경기당 득점이 높을 수록 경기에서 이길 확률이 높다는 것을 추정할 수 있다. 이런 걸 가르치는 과목이 이 강의였다. 그렇다고 무작정 통계에 기반한 분석만 한 것이 아니라 일종의 Linear Model을 만들어서 추후에 선수가 얼마나 홈런을 칠 수 있고, 어떤 기록을 낼 수 있는 지에 대한 예측을 할 수 있다는 것도 소개했다.

 야구만 놓고 보더라도 이렇게 분석하고 예측하는 기술이 실생활에 적용되었을 때는 큰 영향력으로 작용한다. 이 때문에  계속 기술의 trend가 Data Analysis로 가고, 그렇게 분석하기 위한 데이터들이 모여서 big data를 형성하는 게 아닌가 싶다.

 강의가 끝난 후에 Review를 살펴보면 대부분의 의견이 "신선했다"는 것이었다. 실제로 이전까지는 대부분의 통계 수업들이 그냥 통계적인 관점에서만 보고 가르치는데 있었지만, 이 강의는 어떻게 보면 조금 생소한 내용을 주제로 재미있게 풀어나갔고, 여러가지 실습 도구들로 직접 해볼 수 있었다는 것이 다른 강의와는 달랐던 게 내 개인적인 생각이다. 물론 Sabermetrics에 관심있는 일반 사람들을 대상으로 했기 때문에 강의의 depth 자체는 그렇게 깊지도 않았고, SQL이나 R syntax도 그렇게 많이 다루진 않았지만, 그래도 여기서 배웠던 내용을 바탕으로 뭔가 다른 걸 해볼 수 있는 여지는 생긴 듯 하다.

 강의에 관심이 있거나 SQL/R에서 어떤 내용이 다뤄졌는지 궁금한 사람은 한번 강의 사이트나 내가 github에 남긴 sample code를 보면 좋을 것 같다.

강의 : https://www.edx.org/course/bux/bux-sabr101x-sabermetrics-101-1558#.U9Ceyx9tj0p

github : https://github.com/goodboychan/SABR101x



댓글