티스토리 뷰

Study/AI

[ML] Million Song Dataset

생각많은 소심남 2015. 7. 26. 14:45

분산처리 과제를 하다보니까 음악과 관련한 데이터 처리에 관한 내용이 있었는데, 관련 dataset을 공유해보고자 한다.


<Million Song Dataset>


 Columbia 대학에 있는 LabROSA라는 데서 만든 음악 정보와 관련한 Dataset이다. 여기에는 음악과 관련한 metadata나 audio feature 같은게 포함되어 있고, 실제 과제에서 사용하는 Dataset은 10000개 정도의 음악 샘플을 가지고 학습을 할 것이다. 사실 이 10000개라는 정보량이 이 Dataset에서 제공하는 정보량의 약 1%에 해당하는 분량이다. 그러니 실제 우리가 직접 다룰 수 있는 건 대략 백만여개 정도의 곡이 되는 것이다. 이런 걸 어떻게 써먹을까? 

 우리 주변에도 음원 서비스를 제공하는 업체들이 여러군데 있다. 보통 그런데 들어가면 사용자에게 추천하는 곡이라는 항목으로 몇개의 곡 리스트들이 나열되고는 한다. 만약 사용자와 비슷한 패턴을 가진 사람이 이 서비스를 이용할 때 이런 곡들을 추천해준다면, 대부분의 사람들은 그 곡들을 청취할 것이다. 물론 개인의 특성을 정확히 분석하고 제공하는게 힘들기 때문에 때로는 취향에 맞지 않는 정보를 제공할 수도 있겠지만, 그 대부분이 이용하는 것으로도 충분히 이윤을 얻을 수 있다고 볼 수 있다. 이때 이런식으로 과거의 사용자들의 청취 패턴을 보고 경향을 얻어내고자 하는게 이런 Dataset이 필요한 목적이라고 생각된다. 물론 이렇게 음악에만 국한된게 아니라 영화나 TV프로그램에서도 이런 접근 방식을 통해서 이윤을 얻는 회사들이 점차 늘어나고 있다. 아마 알 사람도 알겠지만 미국의 netflix도 성장하게 된 계기 중 하나가 바로 과거의 고객들의 취향 정보를 바탕으로 추천 서비스를 제공하는 것이기도 하다. 아무튼.. (재미있는 건 이걸 가지고 대회를 열었다가 개인정보 열람 남용등의 이유로 고소당하기도 했다는 거....)

 여기 들어가보면 다양한 정보들이 많다. dataset을 구성하는 요소들의 특성이라던가, 혹은 그 dataset을 활용하는 예제 코드들과 데모... 아마 Machine Learning이나 Data Analysis를 배우고 실용으로 접목시켜보길 원하는 사람한테는 좋은 학습도구과 되지 않을까 생각한다. 관심있는 사람들은 이와 관련한 paper도 있으니까 참고해보면 좋을 거 같다.


- Million Song Dataset : http://labrosa.ee.columbia.edu/millionsong/

The Million Song Dataset. - Thierry Bertin-Mahieux, Daniel P.W. Ellis, Brian Whitman, and Paul Lamere. [pdf] [bib]

댓글