티스토리 뷰

Study/AI

[TIP] Jupyter에서 서버상의 데이터를 읽어오기

생각많은 소심남 2020. 1. 15. 14:38

 팁이라고 하기도 그런데 기억차원에서 남긴다.

데이터가 서버한곳에 모아져 있을 경우, 거기에 저장되어 있는 데이터를 처리하고 싶은 경우가 있다. 보통 가장 쉽게 할 수 있는 방법은 아래와 같이

  • 서버의 데이터를 로컬PC로 다운로드한다.
  • (혹은) Jupyter server가 실행된 PC상으로 업로드를 해서 처리한다.

일텐데, 굳이 이런 다운로드/업로드 과정을 생략하려면, python의 requests library를 사용해서 url로 직접 접속할 수 있게 할 수 있다. 보통은 github같이 공개된 곳에 올리면 해당 dataset의 url에 requests.get를 하고 그 데이터의 text를 pd.read_csv()등을 통해서 처리할 수 있다. 예시는 아래와 같다.

import pandas as pd
import requests
from io import StringIO

# sample data import
u = 'https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv'
r = requests.get(u, verify=False)

df = pd.read_csv(StringIO(r.text))

(참고로 https 보안 특성상 request시 ssl 관련 warning이 발생하긴 하는데 여기까지만 해도 csv데이터를 dataframe으로 변환시켜서 처리할 수 있다.

 문제는 private server와 같이 id와 password를 요구하는 절차가 포함되어 있다면, 위와 같이 접근이 어려울텐데, 아래와 같이 처리하면 해당 데이터도 읽어올 수 있다.

import pandas as pd
import requests
from io import StringIO

nas_ip = '<NAS IP>'
path = '<NAS PATH>'
nas_id = '<NAS ID>'
nas_pw = '<NAS PW>'
 
u = 'http://{}:{}@{}:{}'.format(nas_id, nas_pw, nas_ip, path)
r = requests.get(u, verify=False)
df = pd.read_csv(StringIO(r.text))

원래 http를 통한 login 자체가 ID와 password가 encoding된 후 들어가기 때문에 동일한 방식을 활용해서 주소포멧을 만든후 request를 하면 데이터를 읽어올 수 있다. 다만 ID나 PW가 평문으로 들어가기 때문에 이에 대한 조치가 필요하긴 하다.

'Study > AI' 카테고리의 다른 글

[DS][Visualization] Additional Plot  (0) 2020.05.12
[DS][Visualization] A Visual History of Nobel Prize Winners  (0) 2020.05.12
[DL] Optimization Techniques  (0) 2020.01.28
[DL] Types of Computer Vision Models  (0) 2020.01.08
[DL] Pre-Trained Model in OpenVINO  (0) 2020.01.07
[RL] Meta Reinforcement Learning  (2) 2019.11.14
[RL] Linear TD  (0) 2019.11.12
댓글