Probability mass functions Make a PMF Plot a PMF Cumulative distribution functions Make a CDF Compute IQR Plot a CDF Comparing distribution Extract education levels Plot income CDFs Modeling distributions Distribution of income Comparing CDFs Probability mass functions import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from empiricaldist import Pmf, Cdf ..
(해당 포스트에서 소개하는 "Think Julia: 줄리아를 생각하다." 책은 한빛미디어로부터 제공받았음을 알려드립니다.) 내가 처음 Julia를 알게 된 것은 MOOC 수업을 들을 때 Julia로 문제를 해결하는게 있어서였다. 그 때 했던 과제가 Linear Optimization을 하는 것이었는데, JuliaBox상에서 Julia로 구현된 Linear Solver를 사용하면 Optimal Value를 구할 수 있었다. 그때 잠깐 다뤘던 내용이지만, Python만큼이나 문법도 간결하고, 구현하고자 한 공식이 있으면 그대로 표현도 가능했고, 이해하기 쉬웠던 것으로 느꼈었다. 사실 Julia는 내가 느낀 것 이외로도 장점이 많다. 책에 기술된 대로 따라가자면, High-Performance Language..
요새는 블로그에 글을 잘 올리지 못한다. 글을 쓰다보면, 내가 쓰는 글이 올바른 정보를 담고 있는지 걱정도 되고, 내가 제대로 알고 쓰는 건지도 의문이 들 때가 많다. 그래서 요새는 글을 쓰면서 요약하는 것보다, 강의보면서 내용 정리하고, 실습해는게 많다. 그래도 강의 내용도 요약하면서, 내가 실습한 결과를 설명하는데 있어 Jupyter를 사용하면 좋다는 생각을 많이 했었고, 찾아보니까 Jupyter notebook을 html형식으로 자동으로 변환시켜서 블로그 형태로 운영할 수 있는 툴이 있다는 것을 발견했다. https://fastpages.fast.ai/ fastpages An easy to use blogging platform with support for Jupyter Notebooks. fas..
Categorical Plot Types¶ In [1]: import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline stripplot() and swarmplot()¶ In [2]: df = pd.read_csv('./dataset/schoolimprovement2010grants.csv') In [3]: sns.stripplot(data=df, x='Award_Amount', y='Model Selected', jitter=True) Out[3]: In [4]: # Create and display a swarmplot with hue set to the..
1. The most Nobel of Prizes¶ The Nobel Prize is perhaps the world's most well known scientific award. Except for the honor, prestige and substantial prize money the recipient also gets a gold medal showing Alfred Nobel (1833 - 1896) who established the prize. Every year it's given to scientists and scholars in the categories chemistry, literature, physics, physiology or medicine, economics, and ..
(해당 포스트는 "Head First Go"에 대한 서평으로, 해당 책은 한빛미디어로부터 제공받았음을 알려드립니다.) 현업에서도 데이터 분석이랑 시각화 관련 작업을 하다보니, R과 Python, 어쩌다가 C로 업무를 하게 되는데, 최근 트렌드 중에 "Go" 라는 언어가 많이 나오고 있는 것 같았다. 그래서 언젠가는 어떤 포인트로든 내가 하는 업무에 Go 를 접목시켜서 좀 배워볼 기회를 가지면 좋겠다 싶었는데, 마침 책으로써 미리 다뤄볼 기회가 생겨서, 이에 대한 글을 좀 남겨보고자 한다. Go는 2009년, Google의 Rob Griesemer와 Rob Pike, Ken Thompson이 만든 functional language이다. 원래의 목적은 google 내부에서 많이 다뤄지는 network기반의..
(해당 포스트는 "이것이 데이터 분석이다 with 파이썬"에 대한 서평으로, 해당 책은 한빛미디어로부터 제공받았음을 알려드립니다.) 요즘들어서 데이터를 가지고 하는 일들이 많아졌다. 소위 "빅데이터"의 시대인만큼 어마어마하게 수집된 데이터들 사이에서 남들이 발견하지 못한 insight를 찾고자 하는 사람들도 많아지고, 수요도 늘었다. 물론 이 insight를 부여하는 것을 사람에 따라서 다르게 수행하고 있다. 어떤 사람은 데이터들 사이에서 특징을 잘 추출할 수 있도록 정리해주는 일을 할 수도 있다. 이해당사자들에게 데이터가 가진 의미를 잘 설득할 수 있도록 시각화를 하는 일도 있고, 아마 요새 가장 핫한 일이겠지만, 이런 데이터에 머신러닝이나 딥러닝 같은 인공지능을 적용해서 미래의 일을 예측하거나, 최적..
보통 딥러닝에서 Model의 size를 줄이거나 동작 속도를 향상시키기 위해서 수행하는 Optimization 기법으로 크게 3가지 방법을 드는데, accuracy 측면에서 약간 손해보면서 Model Size를 줄이는 Quantization, training시 필요한 metadata나 Operation을 안쓰게끔 하는 Freezing, 그리고 Layer의 복잡성을 줄이기 위해서 여러 Operation을 하나의 Operation으로 바꾸는 Fusion 등이 있다. Quantization Quantization은 Model을 구성하는 weight이나 bias들이 과연 몇 bit으로 표현하느냐와 연관된 내용이다. 물론 정확성 측면에서는 각 weight와 bias들이 소수점 자리까지 정확히 update하고 계산..
개인 기록 유지 차원에서 정리해봄 Slack은 협업하는 Task내에서 의사소통으로 많이 쓰이는 수단이다. 단순히 유저별 message만 주고 받을 수 있는게 아니라, file upload같은 것도 되고, 더 좋은 것은 Custom Application을 channel내에 설치함으로써 업무내에서 확장할 수 있는 영역이 넓다는 것이다. 실제 사례로 이렇게 사용할 수 있다. git으로 file upload시 CI내에서 자동으로 전체 소스를 다운받아 빌드후 테스트 결과를 channel에 알려주는 용도 업무용 calendar 및 알림 Event API를 활용한 자동화 구현 일단 내가 사용하려던 용도는 실험이 원격으로 진행되는지라, 원격에서 data를 수집한 후, 수집된 data의 summary를 slack에 올려..
팁이라고 하기도 그런데 기억차원에서 남긴다. 데이터가 서버한곳에 모아져 있을 경우, 거기에 저장되어 있는 데이터를 처리하고 싶은 경우가 있다. 보통 가장 쉽게 할 수 있는 방법은 아래와 같이 서버의 데이터를 로컬PC로 다운로드한다. (혹은) Jupyter server가 실행된 PC상으로 업로드를 해서 처리한다. 일텐데, 굳이 이런 다운로드/업로드 과정을 생략하려면, python의 requests library를 사용해서 url로 직접 접속할 수 있게 할 수 있다. 보통은 github같이 공개된 곳에 올리면 해당 dataset의 url에 requests.get를 하고 그 데이터의 text를 pd.read_csv()등을 통해서 처리할 수 있다. 예시는 아래와 같다. import pandas as pd imp..
