'2017/12/25 글 목록

가끔 데이터를 외부에서 읽어오다보면 원하지 않는 데이터들이 포함되는 경우가 종종 있다. 예를 들어 전체 결과에 영향을 주는 변수(outlier)가 있는가 하면, 아예 데이터가 없는 경우(NaN)도 존재한다. 이중 NaN을 처리하는 방법에 대해서 잠깐 언급해보고자 한다. 내가 생각하는 NaN이 있으면 안 좋은 이유는 딱 한가지, NaN 자체가 Pandas 내에서 mean이나 median을 계산할 때, 그 자체적으로 수행이 안된다는 것이다. 가령 NaN은 내부적으로 np.nan으로 처리되는데 이 값에 어떤 값을 더하거나 빼도 그 결과가 NaN으로 반환되어 정상적인 결과를 얻을 수 없다. 이 때문에 NaN을 배제해야 할 필요성이 생기는데, 이를 해결하는 방법도 여러가지가 있다. 아예 NaN은 배제하고 계산한다..

Study/AI 2017. 12. 25. 22:48

이전 1 다음