티스토리 뷰

Study/AI

[Big Data] Apache Spark를 이용한 과제 수행

생각많은 소심남 2015. 6. 6. 01:01

최근에 듣기 시작한 과목중에 분산 시스템을 활용한 빅데이터 강의가 있길래 듣고 있다. apache spark 라는 걸 사용해서 진행한다는데 앞으로 어떤걸 배울지 궁금하다. 



화면으로 보이는 내용이 바로 ipython notebook이라는 건데, web상에서 실시간으로 문서 작성, 수정 및, python code를 직접 수행할 수 있게끔된 일종의 포멧형태이다. 강의 과제는 보통 이렇게 notebook 형식으로 주고 그안에 제시된 과제를 spark를 이용해서 해결하는 방법으로 진행되는 거 같았다.



그런데 무엇보다 신기했던건 vagrant라는 툴이었다. 좀 찾아보니까 이 툴은 가상머신 관리 프로그램이라고 한다. 

보통 특수환경을 요구했던 강의들은 그 환경이 구축된 VM 이미지를 배포했었다. 그런데 아무래도 일반 운영체제 위에 담겨서 전달되다 보니까 용량도 매우크고 인터넷 속도의 제한으로 인해서 많은 인원들이 어려움을 겪을 수 밖에 없었다. 이 문제를 해결할 수 있는게 바로 vagrant인데, 여기서는 Amazon EC2에 이 spark가 설치된 VM image를 올려놓고 사용자가 여기에 접속해서 사용하는 형식으로 되어 있다. 이렇게 하면 굳이 VM 이미지를 다운받지 않더라도 실제로 로컬에 마운트된 vm상에서 spark를 쓸 수 있게 된다. 이렇게 인식된 VM은 virtual box에서도 실제로 돌아가고 있는것처럼 나타난다.



이런식으로도 가상머신을 연계해서 사용할 수 있다는게 신기했다.

댓글