티스토리 뷰

(해당 포스트에서 소개하고 있는 "데이터가 뛰어노는 AI놀이터, 캐글" 책은 한빛미디어로부터 제공받았음을 알려드립니다.)

 

데이터가 뛰어노는 AI 놀이터, 캐글

캐글 마스터들의 노하우를 한 권에 집대성한 책. 흔히 사용하거나 검색으로 쉽게 찾을 수 있는 방법론 외에 다양한 대안들을 여러 예제와 함께 배울 수 있다.

www.hanbit.co.kr

과거와는 다르게 어느정도 빅데이터가 쌓이고, 이를 활용한 비지니스 모델들이 많이 나오고 있다. 오히려 데이터가 많이 쌓이면서, 어느정도 영리의 목적을 가지지 못하는 데이터속에서 의미를 찾고자 하는 의도가 보통 데이터를 가지고 열리는 대회에서 보여진다. 그래서 예전보다 더 데이터를 활용한 경진대회나 워크샵이 많이 열리는 것 같다. 보통은 많이 알려져있는 Kaggle이나 DrivenData, AIcrowd 같은 곳에서 대중적인 데이터를 가지고 경연대회를 많이 열고 있고, 상위 입상자에는 상금과 관련된 혜택을 제공하고 있다. 이제는 데이터에 관심을 가지고 이론을 구현해보고자 하는 사람들에게는 돈도 벌수 있고, 학문적 지식도 쌓을 수 있는 기회들이 제공되고 있는 것이다. (참고로 우리나라에도 Dacon이라고 하는 공공/영리 데이터 기반의 경진대회를 진행하는 곳이 있다.)

데이터가 뛰어노는 AI 놀이터, 캐글

이번에 소개할 책도 역시 캐글에서 즐겨보고자 하는 사람을 대상으로 써진 책이다. 사실 시중에도 이 책 이외에도 캐글과 관련된 책들이 약간 출간되어 있다. 나도 캐글(사실 대회 입상 자체에 관심이 있기 보다는 거기에 공개된 데이터가 회사에서 하는 일과 관련되었는지에 대해서 살펴보는 편이다)에 관심을 가지는 입장에서 관심있게 보는 편인데, 기존의 책들은 대회에서 우승한 알고리즘이나 그 이론적인 배경보다는 처음 접하는 사람들이 어떻게 제출할 수 있고, 많이 알려져 있는 대회에서 우승한 알고리즘에 대한 해설이 나와있는 형태로 많이 되어 있다. 그리고 그런 책 중 가장 아쉬운 것은 소개된 대회의 종류가 한정적이라는 것이다. 

그런 관점에서 봤을 때 이 책에서는 다양한 대회에 대한 사례들이 많이 제시되어 있던 부분이 좋았다. 참고로 크게 다음과 같은 주제로 캐글에서 활용할 수 있는 기법에 대해서 소개하고 있다.

  • 특징 생성
  • 모델 구축
  • 모델 평가
  • 모델 튜닝
  • 앙상블 기법

사실 캐글을 많이 도전해본 사람이라면 알겠지만, 대회자체가 ML관련된 지식이 많이 있다고 해서 점수를 많이 받고, 높은 대우를 받는 구조로 되어 있지 않다. 어떻게 보면 EDA를 통해서 대회에서 제공되는 데이터의 속성을 빠르게 분석하고, 이에 적당한 모델을 선택해서 튜닝하는 과정에 최적화되어 있다. 그래서 아무리 책에서 ML과 관련된 다양한 모델을 접해봤더라도, 막상 데이터를 보면 조금 막막한 경우가 생긴다. 이 책은 그런 아쉬움을 어느 정도 해결해줄 수 있는 내용들을 제공하고 있다.

이 책의 차별성이라고 하면, 앞에서 언급했다시피 다양한 카테고리에 맞춰 이와 관련된 대회의 사례들을 제시하고 있는 것이다. 또한 저자가 직접 참여하면서 적용했던 이론적인 뒷받침이나 근거에 대해서 간단하게나마 설명하고 있어, 접근방식을 복습해보려는 사람에게는 좋은 길잡이가 될 내용들이 담겨져 있다.

책의 분량 자체가 그렇게 얇지 않기 때문에, 전체적인 내용을 섭렵하고 대회에 도전해보기에는 적절하지 않다. 그만큼 책에는 대회에서 적용해볼만한 다양한 기법들과 관련된 코드들이 제시되어 있고, 설명이 잘 되어 있다. 아마 나같은 경우라면 직접 구현해보면서 막히는 주제 중 책에 포함된 주제에 대해서 읽어보고 실력을 키우면 좋을 것 같다.

댓글