티스토리 뷰

Study/MOOC

[MOOC] Excel for Data Analysis and Visualization

생각많은 소심남 2015. 10. 27. 20:32


위 두개의 차이는 무엇일까? 사실 오른쪽에 있는 내용은 왼쪽에 있는 내용의 일부분만 뽑아온 것이다. 뭔가 상품의 예상 판매량을 기록하면서 일하는 사람한테는 자신의 입맛에 맞게 기존 정보를 변화시켜서 자신에게 맞는 정보를 얻기를 원할 것이다. 단순히 상품 판매를 예시로 든 것이지, 실제로 이런게 Data Analysis가 실생활에서 응용되는 예 중 하나일 것이고, 잘만 활용한다면, 원하는 정보로 가공해 자신만의 전략을 세울 수 있을 것이다.

 이렇게 말은 복잡하게 이야기했지만 사실 이런 툴을 만들어주는 도구가 Excel이다. 지난 포스트에서도 몇번 언급한 적이 있지만 Excel은 정말로 강력한 툴이다. 과거에는 단순히 셀에만 데이터를 입력하고 결과를 그래프로 출력하는데 그쳤던 프로그램이 이제는 위와 같은 현란한 그래프와 함께 자신의 입맛에 맞게 데이터도 표현할 수 있게 해준다. Office 제품군 중 다른건 몰라도 버전업이 되면서 가장 획기적인 기능을 가지고 나타나는게 바로 이 Excel이 아닌가 싶다. 그중에서도 Power Query나 Power Pivot 같은 추가 기능은 정말로 효율적으로 원하는 데이터를 뽑아내준다. 마침 edX에서도 이와 관련된 강의가 있어서 2달동안 들어보았다.


<Excel for Data Analysis and Visualization>


MS가 최근에 edX와 협정을 맺으면서 Virtual Academy에 있던 강의들을 edX platform으로 옮겨왔다. c#나 xaml, c++, windows server와 같은 microsoft 제품군과 관련한 강의도 열렸지만 Machine Learning과 Cloud Computer와 연관한 수업같이 일반적인 분야에 대한 강의도 계속 열리고 있다. 이 강의는 어쩌면 microsoft의 제품군인 excel을 Data Analysis하는데 초점을 맞춘 강의이기에 너무 제품 특화된 내용을 다루지 않을까 싶었는데, 오히려 배우면서도 '오! excel에 이런 기능도 있었구나' 같은 느낌을 많이 받았다. 신기한 기능을 배우면서 예제 중심의 강의가 이뤄져 이해하는데 별 무리가 없었던 것 같다.

 아무튼 Excel 2010부터 제공되는 기능이긴 하지만 여기서 다루는 대부분의 기능을 활용하기 위해서는 Excel 2013을 써야한다. 이 강의에서도 가장 최신 버전인 Excel 2016을 사용할 것을 권한다. 그 이유는 앞에서도 언급한 Power Query나 Power Pivot 같은 기능들이 최신 버전에서 정식 지원을 하기 때문이다. 특히 2013부터는 Data model이라는 concept이 등장하면서 정말로 쉽게 sheet끼리 정보를 연동할 수 있게끔 기능을 제공한다. 사실 맨 처음에 보여준 그래프들도 하나의 sheet에서 뽑아온 Data가 아닌 여러 sheet에서 뽑아온 데이터를 공통 항목을 적용하면서 취합해 하나로 integrate 시킨후 표현한 내용이다. 



위 이미지가 바로 그 취합된 데이터를 PowerPivot 으로 정렬하는 과정을 묘사한 것이다. 여기서 필터를 적용해 특정 데이터만 표현하게끔도 할 수 있고, 다양한 Data 처리가 가능하다. 보통 일반 사람들이 바라는 기능 중 하나가 공통된 항목에 대해서 데이터를 취합하는 것일텐데, PowerPivot의 Diagram View를 활용하면


공통 항목에 대해서 관계를 형성시키고 이를 재정렬해준다. 이렇게 처리한 데이터를 이제 Pivot Table과 같은 방법으로 표현한게 맨 앞의 그래프가 되겠다. 이런 내용들을 강의에서 가르쳐준다. 


 내가 가장 신기했던 기능 중 하나는 DAX(Data Analysis eXpression) 라는 일종의 표현식을 사용해서 화면에 표현되는 정보를 interactive하게 변화시키는 것이다. 예를 들어서 


이와 같이 만든 Dashboard가 있다고 가정했을 때, 가운데 뜨는 문구를 주목하고 그 위의 slicer의 값을 변경시켜보면


가운데 문구가 변화한 것을 확인할 수 있다. 저렇게 표현할 수 있는 건 물론 긴 수식이 있긴 하지만 몇 % 증감했는지에 대한 수치를 계산한 것은 DAX를 이용해서 표현한 것이다. 이런 수식 표현 방법만 알게 되면 slicer의 값 조절만 가지고 표현되어지는 데이터와 그에 맞는 그래프가 쫙 나오는 것이다. 

 이밖에도 csv 파일을 통해서 Data Model을 형성해 하나의 자료형으로 만드는 방법과 같이 뭔가 실험을 많이 분석해야 하는 사람들 입장에선 필수적인 내용들을 알려주고 실습을 했다.


 말이 두서없이 길어지긴 했는데, 한번 Excel을 통해서 Data Analysis 하는 방법을 공부해보고 싶은 사람은 한번 이 강의를 들어볼 것을 권한다. 단 Excel은 2013 또는 2016을 구해서 듣도록 하자.(2010으로도 할수 있다고 명시는 되어있는데, 실제로 해보니까 툴이 이상하게 설치되고 정상적으로 동작하지 않는다..)

댓글