티스토리 뷰

(해당 포스트에서 소개하고 있는 "파이썬 라이브러리를 활용한 텍스트 분석" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.)

 

파이썬 라이브러리를 활용한 텍스트 분석

분석하려는 텍스트에 맞는 처리 기법을 소개하는 도서로 실제 모범 사례를 기반으로 상황에 맞게 설계한 텍스트 전처리 파이프라인 구축, N-그램 분석, 텍스트 벡터화 등 다양한 전략과 그때 필

hanbit.co.kr

인공지능이 실생활에 적용되는 분야를 꼽으라면 대표적인 분야가 보통 NLP로 표현되는 자연어처리일 것이다. 몇년전만 해도 뭔가 시대를 앞서나가는 듯한 사례를 제공했던 AI assistant도 이제 다양한 업체에서 제공하는 대표적인 케이스가 되었고, 이밖에도 사용자의 감정을 이해하고 어떤 상품을 추천하는데 있어서 자연어처리는 이런 기술들을 실제로 실현시킬 수 있는 핵심 기술이 되었다.

파이썬 라이브러리를 활용한 텍스트 분석

이번에 다루는 책도 역시 이 자연어처리에 관련된 내용을 다루고 있다. 그런데 일단 책의 내용을 다루기 전에 책 제목에 대해서 언급하고 싶은게 있다. 사실 이 책의 원제는 Blueprints for Text Analytics Using Python 라는 제목을 가지고 있는데 직역을 하자면 파이썬을 활용한 텍스트 분석에 대한 청사진을 뜻한다. 제목만큼이나 이 책에서는 다양한 라이브러리와 어떻게 보면 머신러닝과 딥러닝을 활용한 자연어 처리에 대한 내용을 풍부하게 담고 있다. 그런데 한국어판에서는 파이썬 라이브러리를 활용한 텍스트 분석이라는 제목을 가졌는데, 사실 시중에 나와있는 대부분의 자연어처리 책들이 대부분 파이썬 라이브러리를 사용한다. 어떻게 보면 책이 가진 특징을 잘 못 살린 케이스가 아닌가 싶다. 물론 이런 제목을 가진 나름의 이유가 있겠지만..

아무튼 이 책은 말한대로 텍스트 분석에 필요한 전처리 기법 및 머신러닝을 통한 기본적인 분류 기법, 더 나아가 transformer를 활용한 감정 분석, knowledge graph와 같은 고급 기법들에 대한 소개가 다뤄진다. 단순히 이론적인 설명만 기술되어 있는 것이 아니라 이론 내용을 직접 다뤄볼 수 있는 예제가 같이 제공되는데, 생각보다 이 예제의 퀄리티가 좋다고 생각한다. (실제로 원서의 평에도 github을 통한 예제를 통해서 내용 이해가 쉬웠다는 내용이 있기도 하다.) 그리고 개인적으로는 물론 이론적인 내용도 어려운 부분이 있겠지만, 자연어처리를 실제로 다루면 어려운 부분 중 하나가 주변 라이브러리 사용법이 너무 복잡하다는 것인데, 이 책은 그런 부분에 대한 설명도 포함하면서 뭔가 응용을 할 수 있는 여지도 제공한다. 참고로 이 책에서는 자연어처리를 위한 라이브러리로 spaCy나 Gensim, NLTK 등을 사용했고, (아 여기까지 읽다보니까 어떻게 보면 이 관점에서 제목을 지었을 수도 있었겠다 하는 생각이 들기도 했다.) 혹시라도 이 부분이 궁금한 사람은 출판사에서 제공하는 미리보기에 각 장별 사용 라이브러리와 데이터셋에 대한 기술이 요약해서 되어 있으므로 한번 보면 좋을것 같다. 이론적인 내용을 떠나 마지막 장에서 다루는 클라우드 환경에서 데이터 분석을 할 수 있는 방법에 대해서 소개되어 있는 부분은 진짜 현업에서 활용할 수 있을 법한 내용을 다뤘기에 해당 분야로 일하는 사람들에게는 조금 더 현실적인 내용이 되지 않을까 생각한다.

댓글