티스토리 뷰

(해당 포스트는 "이것이 데이터 분석이다 with 파이썬"에 대한 서평으로, 해당 책은 한빛미디어로부터 제공받았음을 알려드립니다.)

 요즘들어서 데이터를 가지고 하는 일들이 많아졌다. 소위 "빅데이터"의 시대인만큼 어마어마하게 수집된 데이터들 사이에서 남들이 발견하지 못한 insight를 찾고자 하는 사람들도 많아지고, 수요도 늘었다. 물론 이 insight를 부여하는 것을 사람에 따라서 다르게 수행하고 있다. 어떤 사람은 데이터들 사이에서 특징을 잘 추출할 수 있도록 정리해주는 일을 할 수도 있다. 이해당사자들에게 데이터가 가진 의미를 잘 설득할 수 있도록 시각화를 하는 일도 있고, 아마 요새 가장 핫한 일이겠지만, 이런 데이터에 머신러닝이나 딥러닝 같은 인공지능을 적용해서 미래의 일을 예측하거나, 최적화된 동작을 수행하도록 개발하는 일이 있을 수 있다. 이렇게 언급한 업무들 모두 본질적으로는 탐색적 데이터 분석, 조금더 나아가면 Exploratory Data Analysis (EDA)가 필요한 업무들이다. 데이터 분석없이 특징을 찾고 정리할 수 있을까? 데이터의 본질을 이해하지 못한 상태에서 인공지능을 통해서 뭔가를 예측할 수 있을까? 개인적으로도 EDA는 데이터를 가지고 하는 일 중 가장 기초이면서도 핵심이라고 생각한다.

 그런데 기초라고 말하면서도 항상 새로운 데이터를 살펴보면, 어떤식으로 데이터를 분석해야할지 항상 고민하고 있다.그래서 요새 통계쪽이나 확률 강의를 많이 듣기도 하고, kaggle에 공개된 다양한 type의 dataset도 살펴보면서 경험을 쌓고 있다.

그림 1. 이것이 데이터 분석이다 with 파이썬

 이번에 소개할 책은 Python으로 데이터 분석하는 방법에 대해서 소개한 책이다. 아마 데이터 분석에 관심있는 사람은 서점이나 도서관에 가보면 알겠지만, 데이터 분석에 대해서 소개하고, 가르치는 책들이 정말 많다. (대충 Data Analysis로만 검색해도 500여종 정도 나오는 것 같다.) 그래서 그 책들 중에서 딱 한권을 고르자니 기준이 참 막막하다. 어떤 책은 Pandas나 Numpy, Matplotlib의 사용법에 대해서 소개하는 반면, 또다른 어떤 책은 통계나 확률 이론적으로 접근한 데이터 분석 이론을 소개한다. 어떤 책은 R로 가르치는 책도 있고, 다른책은 Visualization에 치중해서 가르치는 책도 있다.

 이 책은 철저하게 실습 위주의 책이라고 볼 수 있다. 물론 초반부에 예제 등으로 통해서 library의 사용법이나 이론을 소개하고 있지만, 책의 대부분을 실제 데이터를 활용해서 분석하고, 시각화하는데 할애하고 있다. 중간중간에 부족한 부분은 간단한 노트등을 통해서 소개하고 있다. 크게 이 책을 통해서 다루고 있는 실제 예제는 다음과 같다.

  • 국가별 음주 데이터 분석
  • 프로야구 선수의 다음해 연봉 예측
  • 비트코인 시세 예측
  • 영화 평점 예측
  • 타이타닉 생존자 특성 분석
  • 강남역 맛집 리뷰의 중요 키워드 분석
  • 중고나라 휴대폰 가격 예측

 대부분의 예제들이 실제의 공공 데이터 등을 바탕으로 실습하는 방향으로 구성되어 있어, 이런 방향으로 데이터를 다뤄보고 싶은 사람한테는 좋은 실습 교재가 될 수 있다. 특히 키워드 분석과 같이 언어처리도 같이 다뤄진 예제나, 비트코인 시세 예측과 같이 Time-series data analysis 방면으로도 공부할 수 있는 예제는 서두에서 언급했던 EDA의 전반적인 내용을 다 다룰 수 있는 것이 이 책의 장점이 아닐까 생각한다. 나같은 경우에도 현업에서 필요했던 시계열 데이터 분석 부분이나 시각화 관련 기법은 이 책에서 조금 참고해서 도움을 받았던 것 같다.

그림 2. 유튜브 강의 제공

 소소하게 장점이라고 할 수 있는 부분은 저자 직강(링크)이 제공된다는 점이다. 물론 요새는 좋은 MOOC도 많이 공개되어 있긴 하지만, 책과 관련된 내용에 대해서 직접적으로 가르치는 리소스가 있는 부분은 책을 통해서 학습하는 독자에게는 좋은 교육자료가 제공된다.

 물론 잠깐 언급했다시피, 시중에 정말로 많은 데이터 분석 관련 책들이 출판되어 있다. 물론 어떠한 학습 방향이 옳고, 어떤 책이 정말 좋다라고 단언하기는 어려운 부분이 있지만, 그래도 적어도 실습 위주로 학습하는 독자의 경우에는 이 책이 하나의 길잡이 역할을 할수 있다고 생각한다. 그리고 조금더 첨언하자면, 진짜 데이터 분석 경험을 계속 쌓는게 필요하다고 본다. 그래서 남들이 kaggle같은 곳에 만들어 놓은 EDA notebook 같은 것을 보면서 많이 배우고, 현재 데이터 분석 관련 일을 한다면 하나하나씩 적용해보는 것도 조금더 숙련된 EDA를 할 수 있지 않을까 하는 의견을 한번 가져본다.

 (참고로 조금더 고급 지식을 살펴보고 싶은 사람이라면 저자 블로그 에서도 얻는 부분이 많을것 같다.)

데이터 분석
머신러닝 탐구생활
정권우 저
파이썬 라이브러리를 활용한 데이터 분석
웨스 맥키니 저/김영근 역
이것이 데이터 분석이다 with 파이썬
윤기태 저
예스24 | 애드온2
댓글