티스토리 뷰

Hobby/Book

[Book] 행동 데이터 분석

생각많은 소심남 2023. 6. 25. 11:41

(해당 포스트에서 소개하고 있는 "행동 데이터 분석" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.)

 

행동 데이터 분석

‘정말 고객이 우리 광고 메일을 보고 서비스를 구독할까?’ ‘연령이 높은 고객이 구매하는 상품은 따로 있을까?’ ‘무엇이 고객의 행동을 유발하는지’에 대한 답을 주는 책!

www.hanbit.co.kr

우리 주변에서 볼 수 있는 데이터의 유형은 다양하다. 어떤 센서로부터 나오는 데이터가 있을 것이고, 자연 현상의 어떤 특징을 담아놓은 데이터도 있을 것이고, 또는 사람의 행동 패턴을 담은 데이터도 있을 것이다. 이러한 데이터들은 어떻게 보면 어떤 현상의 순간적인 시점에서 쌓은 데이터일 수도 있고, 혹은 정해진 기간동안의 모든 관찰정보를 담고 있어서 약간의 시계열의 형태를 띌 수도 있다. 

이렇게 쌓은 데이터에서 어떤 경향성이나 패턴을 찾고자 하는 것이 요즘의 데이터 과학의 트랜드가 된것 같다. 과거에는 그냥 흘러넘어갔던 데이터들도 이제는 어떤 특정 개인을 단정짓지는 못하더라도, 그 사람이 속한 연령대, 그룹의 경향성 정도는 유추할 수 있게 되었기 때문이다. 그냥 단순하게 생각했을때 이런 분야가 적용된 것이 "마이데이터" 인 듯 하다. 아마 경험한 사람들은 알겠지만, 시중의 금융사들은 다양한 이벤트들을 통해서 고객들의 금융데이터에 대한 접근권한을 얻으려고 노력했다. 별개 아닐수도 있겠지만, 만약 금융사들이 고객들이 돈을 쓰는 유형이나 어디에서 돈이 제일 많이 빠지고, 대출을 많이 하는지를 알 수 있다면, 그에 맞는 상품을 추천해줄수도 있는 것이다. (나도 대출받은 곳이 하나있는데, 이상하게 대출 상환일이 다가오면 다가올수록 저리의 대출로 이관할 수 있다고 홍보하는게 잦아지는 거보면 이런거랑 연관이 있지 않을까 싶다...)

아무튼 이렇게 데이터를 통해서 사람의 경향성을 분석하는 분야를 행동분석학 (Behavioral Analysis)라고 표현하는 듯하다. 물론 최근에 많이 사용하는 딥러닝 기법을 활용해서 어떤 행동을 예측하는 것으로 확장할수도 있겠지만, 개인적으로 생각했을 때 이 분야의 목적은 뭔가에 대한 예측보다는 어떤 행동을 했을 때 그 행동이 발생하게 된 요인이나 근거를 찾는데 조금더 초점을 맞추고 있는 것을 보인다. 물론 딥러닝의 설명적인 측면이 부족하기에 어떤 현상에 대한 설명을 위해서 그런 부분이 중점적이지 않을까 하는 생각까지 해본다. 그래서 이번에 다루는 책도 역시 그런 딥러닝 기법이 아닌 전형적인 데이터 분석과 통계적 기법을 통해서 사람의 행동 데이터를 통한 분석에 대해서 설명하고 있다.

앞에서 소개한 것과 같이 이 책은 확률 통계 기법을 통해서 고객 데이터를 다루는 방법에 대해서 R과 Python으로 소개한 책이다. 그래서 딥러닝에 대한 내용도 거의 없고, 다만 통계 관련 내용을 활용해서 내용이 전개되기 때문에 관련 지식에 대해서 조금 알고 있으면 내용 이행에 도움이 될 듯 하다. 그래도 관련 연구자들이 이 책을 통해서 도움을 받을 수 있는 부분은 행동 데이터라는 것 자체가 다양한 특성을 가지고 있어서 실제 모델을 적용하기 위한 전처리나 결측치 처리가 필요한 부분이고, 이는 굳이 행동 데이터가 아니더라도 다른 데이터를 다룰 때에도 유용하게 사용할 수 있는 부분이 있어서 참고할 만하다고 생각하다. 또한 개인적으로 이 책의 백미는 4장인 실험 설계와 분석 부분인데, 개인적으로도 어떤 이론에 대한 실험을 하는데 있어서 가장 어려움을 느끼는 부분이 바로 실험 설계와 결과에 대한 분석 쪽인데, 이 챕터에서는 3장을 통해서 예시를 통한 실험 설계와 진행, 분석에 대한 내용을 다루고 있다. 뭔가 어떤 실험에 대해서 설계를 고민하고 있다면, 해당 챕터에서 다루는 내용이 도움이 될 것 같다.

조금 아쉬운 부분이라면 (물론 이는 번역서 문제가 아닌 원서의 전개 방식에 대한 것이긴 하지만..) 이 책의 구현이 R과 Python으로 되어 있다보니, 예시도 두가지 모두 제시되어 있고, 어떻게 보며 이 때문에 분량이 조금 늘어진 부분도 있는 것 같다. 만약 하나의 언어만 아는 사람이라면 조금 생소할 수 있는 부분이다. 오히려 책에는 Pseudo code 정도로만 소개하고, 예시를 Jupyter notebook 같은 것으로 제시했어도 좋지 않았을까 하는 생각이 든다. 또한 책에는 보면 설명을 뒷바침할 수 있는 다양한 그래프들이 제시되어있는데, 오히려 예시코드에 이런 그래프를 출력할 수 있는 코드도 같이 있었으면 좋지 않을까 싶다. (오히려 두가지 언어로 표기가 되면서 늘어난 분량이 시각화 관련 내용으로 소개되었으면 좋았을것 같다는게 개인적인 생각이다..)

사실 아쉬운 점을 소개하긴 했지만, 앞에서 소개한 것처럼 행동 데이터라는 것 자체가 다양한 특성을 지니고 있고, 그만큼 전처리나 분석하는 기법이 조금 어려운 데이터인데, 이 책은 그런 데이터를 이론과 실제 구현 코드를 통해서 쉽게 분석하는 방법에 대해서 소개했다는 측면에서 여타 다른 데이터 분석책보다는 다른 특징을 가지고 있다고 생각한다. 또한 책에 담겨져 있는 내용 자체가 실제 응용될 수 있는 분야가 굉장히 넓기 때문에 관련 연구를 하는 사람들에게는 좋은 지침서가 되지 않을까 개인적으로 생각한다.

(책을 고르게 된 개인적인 여담을 소개하자면 사실 책의 내용이 행동과 관계되어 있어서, 내가 관심있는 주제 중 하나인 Behavior Cloning이랑 관련이 있을까 싶었는데.. 전혀 관계가 없다.)

댓글