티스토리 뷰

(해당 포스트에서 소개하고 있는 "파이썬의 엑셀, 판다스 라이브러리" 책은 비제이퍼블릭으로부터 제공받았음을 알려드립니다.)

 

파이썬의 엑셀, 판다스 라이브러리

부제 엑셀 예제로 배우는 파이썬 데이터 분석저자 김판다출판사 비제이퍼블릭(BJ퍼블릭)출간/배본가능일 2024년 9월 30일정가 40,000원페이지 632쪽판형 188*257ISBN 979-11-6592-296-2 (93000) 관련분류

bjpublic.tistory.com

 개인적으로 하고 있는 일이 실제 데이터에서 추출된 데이터를 분석하고 적당한 모델을 만드는 일이다보니, 물론 tensorflow나 pytorch, jax같은 것을 사용하기도 하지만, 주로 사용하는 라이브러리는 무엇보다도 pandas가 아닐까 싶다. 보통 데이터는 날짜, 센서 데이터가 쭉 기입된 raw data 형태의 csv file일수도 있고, 아니면 엑셀과 같이 정형화된 규격에 딱 데이터가 들어가 있는 형태일 수 있다. 그래서 보통 그 데이터를 뽑아 원하는대로 처리해서 의미있는 통계치를 계산할 수 있고, 혹은 다른 사람이 의사결정을 쉽게 내릴 수 있도록 데이터를 시각화하는 작업도 하게 된다. 물론 이 데이터가 처리하기 쉽게 깨끗한 형태로 저장되어 있으면 좋겠지만, 가장 일반적인 형태는 중간에 데이터가 누락되거나, 아니면 규격에 맞지 않는 데이터가 들어오는 것이고, 그러게 되면 하나씩 그런 데이터는 어떻게 처리하면 좋을지에 대한 고민을 한다. 이 모든게 다 pandas를 다루다보면 하게 되는 일이다. 그래서 정말 편리한 라이브러리일 수도 있고, 제대로 사용하려면 데이터의 형태나 안에 포함되어 있는 데이터의 규격에 대해서 고민을 많이 해야 된다.

그래서 개인적으로도 시중에서 pandas 관련 서적을 많이 읽어보고 필요하다면 구입해서 보는 편이다. 그래서 읽은 책들이 Python for Data Analysis랑 Pandas in Action 이었다. 두 책 모두 Pandas 관련 서적으로 유명한 서적이기도 하고, 예제 기반으로 내용이 이어져 있어서 직접 따라해보면서 pandas의 기능을 이해하기 좋은 책들이다.

파이썬의 엑셀,판다스 라이브러리

사실 앞의 소개된 서적은 다 역서였고, 국내 저자가 쓴 데이터 분석 책은 잘 보질 못했는데, 이번에 읽을 기회가 있어서 소개해본다.

이 책의 장점 중 하나로 꼽을 수 있는 것은 무엇보다도 시원시원한 도식화와 그림으로 된 설명이다. 물론 이때문에 책의 분량이나 가격이 여타 데이터 분석 책에 비하면 조금 많이 나가는 편이긴 하지만, 그에 비해 그림을 통한 내용 설명이 잘 되어 있는 편이다. 사실 데이터 분석의 특성상 데이터가 어떻게 되어 있는지 눈으로 직접 확인해보는 과정이 필요하고, 실제 Pandas API를 사용할 때도 어떤식으로 동작하는지를 작은 데이터로 확인해보면서 전체 데이터에 적용해보는 과정이 필요한데, 이 책은 그런 부분이 충실하게 되어 있다. 그래서 뭔가 어떤 기능을 원할 때도 그런 일련의 과정을 책을 읽으면서 이해할 수 있다는 부분이 개인적으로는 좋았던 것 같다. 아무래도 저자분이 관련 분야에 대한 강사로 일하고, 관련 노하우를 책으로 옮겼기에 오히려 독자 입장에서도 이해가 잘 되게 책이 구성된게 아닐까 생각이 들었다.

그리고 앞에서 소개한 역서들은 책 내용이 좋기는 했지만, 사용된 API에 대한 구체적인 설명을 찾기 위해서는 일일이 공식 문서에서 직접 확인하는 번거로운 과정이 존재했는데, 이 책은 어떤 기능에 대한 설명이 이뤄질때 사용된 API의 기능에 대해서 간략히 설명된 부분이 있어, 그런 번거로운 과정이 없었다. 또한 조금 복잡한 기능들에 대해서는 따로 심화 절을 두어서 해당절을 통해서 복잡한 기능에 대한 주제별 예시와 적용 방안을 소개한 부분도 나름 책에서 얻어갈 수 있었던 부분이었다. 다만 pandas를 다루다보면 아무래도 시각화에 대한 주제도 다루는게 필요할 것 같은데, 이 책에서도 해당 주제에 대한 언급이 전체 분량에 비하면 아주 간단하게만 설명되어 있어서 조금 아쉽게 느껴질 수도 있을 것 같다.

그래도 이 책은 전반적으로 Pandas를 공부하고자 하는 사람의 편의를 제공하는 책이라는 생각이 들었다. 각 챕터별로 실습을 바로 해볼 수 있도록 예제 코드에 대한 QR 코드를 제공함과 동시에 앞에서 언급한 바와 같이 책의 내용에 대한 도식화(정말 다른 책에 비하면 그림이나 설명이 시원시원하게 되어 있다.)는 읽는 사람이 딱 이해하기 쉽도록 잘 정리된 책이었다. 물론 이로 인한 책 가격(대략 3.6만원)이 조금 부담스러울 수 있겠지만, 뭔가 Pandas에 대해서 제대로 공부해보고자 하는 사람에게는 좋은 책이 될 것 같다.

댓글