파이썬에서 다운로드 링크 (URL)가 기록된 CSV 파일을 읽어 들여 자동으로 다운로드 하는 코드

Question

파이썬에서 다운로드 링크 (URL)가 기록된 CSV 파일을 읽어 들여 자동으로 다운로드 하는 코드

조회수 6513회

python

urllib

url

csv

0

싫어요

현재 다운로드 링크가 URL로 기록된 CSV 파일이 있습니다 그 파일에 있는 URL들을 읽어들여 자동으로 폴더안에 다운로드를 받는 코드를 짜고 싶습니다. 여기서 방법을 몰라서 몇가지 시도를 해보았으나 오류도 나고 아예 막힌 상태라 질문을 드립니다.

import urllib.request

url='http://www.data.go.kr/dataset/fileDownload.do?atchFileId=FILE_000000001212856&fileDetailSn=1&publicDataDetailPk=uddi:07b44140-4ded-40e6-946e-c03b317b833e'

urllib.request.urlretrieve(url,1)

이 시도를 통해 우선 urllib.request 라이브러리가 작동하는지 시도를 해보았으나,

OSError: [WinError 6] 핸들이 잘못되었습니다

라는 에러가 발생합니다.

import requests
url='http://www.data.go.kr/dataset/fileDownload.do?atchFileId=FILE_000000001375425&fileDetailSn=1&publicDataDetailPk=uddi:fff6f608-f3b8-464f-be97-d58c4944e477'
r=requests.get(url,allow_redirects=True)
open('urldata.csv','wb').write(r.content)
r = requests.get(url, allow_redirects=True)
print (r.headers.get('content-type'))

request library를 사용 하는 방법도 있었으나, 이 방법은 제가 파일명과 url를 일일히 입력해야 하는거 같았습니다.

저는 URL이 있는 CSV 파일을 파이썬에서 open, r 등으로 읽어 들인후 , url 레코드를 하나씩 내려가면서 자동으로 다운로드를 하는 코드를 짜고싶습니다. 많은 도움 부탁드립니다.

r = requests.get(url.rstrip(), stream=True)
if r.status_code == 200:
    content_dispotistion = r.headers.get('content-disposition')
    if content_disposition is not None:
        targetFileName = requests.utils.unquote(cgi.parse_header(content_dispotistion)[1]['filename'])
        with open("{}/{}".format(SAVE_DIR, targetFileName), 'wb') as f:
            for chunk in r.iter_content(chunk_size=1024):
                f.write(chunk)
    else:
        print('url {} had no content-disposition header'.format(url))
    return targetFileName
elif r.status_code == 404:
    print('{} returned a 404, no file was downloaded'.format(url))
else:
    print('something else went wrong with {}'.format(url))

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

score 1 · Accepted Answer

1

싫어요

점심시간이라...잠깐 코딩을 해봤습니다만 학습에 참고만 하세요.

import cgi
import requests


SAVE_DIR = 'C:/'

def downloadURLResource(url):
    r = requests.get(url, stream=True)
    if r.status_code == 200:
        targetFileName = requests.utils.unquote(cgi.parse_header(r.headers['content-disposition'])[1]['filename'])
        with open("{}/{}".format(SAVE_DIR, targetFileName), 'wb') as f:
            for chunk in r.iter_content(chunk_size=1024):
                f.write(chunk)
        return targetFileName


with open('h:/url.csv') as f:    # url.csv 가 url 목록이 있는 파일입니다.
    print(list(map(downloadURLResource, f.readlines())))

편집 요청

정영훈 15,709 points

2017-07-19 12:58:58에 작성됨

코딩 해주신 부분을 보니 전체적인 흐름은 알겠는데 r.iter_content 나 utils.unquote 같은 부분은 이해가 잘 가지않습니다. 그리고 해당 코드를 제가 python 3.52에 입력하여 맨밑에서 두번째 줄의 파일명과 위치를 수정하여 실행해보았습니다. 레코드 수가 6만개가 넘어서 그런지 아직 결과가 나오거나 저장되지 않고 계속 shell에서 실행중인것으로 나옵니다. 혹시 이 부분은 단순히 레코드 수가 많아 6만건이 다 완료되면 그때 결과를 출력하는건가요? 알 수 없는 사용자 2017.7.19 14:57
url에는 ascii 문자만 허용합니다. 즉 한글은 안되니 한글등을 전달하기 위해 encode를 하게 됩니다. 반대로 다시 한글로 만들기 위해 decode를 하게 되는데 unquote 가 decode 하는 함수입니다. iter_content 같은 경우는 requests에서 제공해주는 펑션으로 이 역시 IO를 공부하게 되면 이해가 될겁니다. 쉽게 1024씩 받아와서 파일에 차곡차곡 쌓는다는 생각으로 이해하면 됩니다. 정영훈 2017.7.19 16:32
6만건을 한번에 처리할려면 멀티프로세스등의 병렬화 기법을 사용해야합니다. 그렇더라도 6만번을 같은 url로 접속시도를 할 경우 될지도 의문입니다. 보통 관공서, 기업등에서 ids, ips 등 보안장비가 있어 dos 공격으로 감지할 수도 있습니다. 일단 서너건만 넣고 테스트 해보세요 정영훈 2017.7.19 16:34
답변 항상 감사드립니다. 6만번을 같은 url로 접속시도를 할때 여기서 '같은 url'은 http://www.data.go.kr/dataset/fileDownload.do?atchFileId= 뒤의 값은 달라도 같은 사이트(공공데이터포탈 )이기에 불가능 할 수도 있다는 말씀이신가요? 그리고 6만건중 4개만 붙여 넣은 csv파일을 만들었습니다. 이 파일을 입력하여 코드 실행시 쉘에서의 결과값이 [None, None, None, None] 으로 나옵니다. 알 수 없는 사용자 2017.7.19 16:51
음..제가 url.csv에 url을 넣고 해보니 잘 되어 올려드린 코드에요.만드신 csv파일을 allinux36@gmail.com으로 보내보세요. 정영훈 2017.7.19 17:06
이메일을 보내드렸습니다. 감사합니다 알 수 없는 사용자 2017.7.19 17:20
r = requests.get(url.rstrip(), stream=True) 이렇게 수정하세요. 문장끝에 \n 혹은 \r\n 일 수 있습니다. rstrip을 수행하여 명시적으로 제거해주면 됩니다. 정영훈 2017.7.19 22:54
감사합니다. 수정해주신 부분을 적용하여 다시 코드를 실행하니 어느정도 정상적으로 진행이 잘되는것 같습니다. 그러던 중 오류가 났는데 이 부분이 조금 복잡합니다. 200개의 파일을 다운받은 후, KeyError: 'content-disposition 가 나옵니다. 위에 말씀하신걸로 보아선 이 부분이 파일의 이름을 읽고 지정하는 역할을 하는 코드인것 같습니다. 우선 200개의 파일을 다운받았으면 위에서부터 1~200개가 되었을거라고 예상을 했는데 csv파일의 201,202 번째도 다운받아진것을 확인할 수 있었습니다. 아마 링크중 파일이 없는 잘못된 링크가 있나 싶었습니다. 그런데 203번째의 링크는 익스플로러에서 확인시 다운로드가 안되고 페이지(탭)의 제목이 insert title here로 나오는것을 볼 수 있었습니다. 이 링크도 파일이 없는? 링크 일경우 왜 앞선 1~202사이의 url에서는 에러코드 없이 단순 스킵이 되나, 203번째의 url에서는 에러코드가 쉘에 입력되는지 궁금합니다. 지속적으로 도움을 주셔서 정말 감사합니다. 알 수 없는 사용자 2017.7.20 10:26
203번째 파일의 헤더를 받아보니 다른라인들은 content disposition이 있는데 이 라인(url)은 content dispositon이 없는것으로 확인되었습니다. content disposition 이 없는 url은 일반 익스플로러에 그대로 붙여넣어도 다운로드가 밑에 팝업되지 않으므로 잘못된 자료인가요 ? 또한 202개중 누락된 2개는 반대로 content disposiition은 있으나 파일이 없기에 에러로는 출력되지 않았으나 다운로드가 안되고 스킵된 경우인가요? 알 수 없는 사용자 2017.7.20 11:33
혹시 이 코드에서 다운로드가 안되거나 에러가 나는 파일들의 이름 또는 url 들을 리스트에 저장하기 위해서는 어느 부분에 어떤 코드를 수정하면 될까요? 에러가 나는 url도 r.status_code 는 200으로 뜨는것으로 보아 if 문 사이는 아니고 정의된 함수 downloadURLResource 자체가 none 일때, print content_disposition,'오류' 이런식으로 수정하면될까요? 알 수 없는 사용자 2017.7.20 15:04
response 헤더에 content-disposition 가 없을수도 있습니다. 작성한 코드에는 없는 경우는 고려치 않았기에 오류가 발생한겁니다. content-disposition 값이 없을때는 별도의 파일명으로 저장되도록 해야 합니다. 정영훈 2017.7.20 20:42
content dispostion이 없는 경우에는 쉘에 오류가 반환이 되면서 멈추는데, 그러지 않고 파일은 다운로드가 안되었는데 쉘에 오류가 나오지 않고 진행되는 경우는 어떻게 해야 다운로드 되지 않은 파일들의 이름이나 URL을 별도의 리스트에 저장하거나 할 수 있을까요? 지금 오류가 두 종류면 각각의 경우로 코드를 수정 해야하는건가요..... 알 수 없는 사용자 2017.7.21 08:39
우선 content-disposition 가 없는 주소를 적어주세요. 문제가 없는 URL인지 확인해봐야겠네요. 정영훈 2017.7.21 09:30
http://www.data.go.kr/dataset/fileDownload.do?atchFileId=FILE_000000001210727&fileDetailSn=1&publicDataDetailPk=uddi:4cf4dc4c-e0e9-4aee-929e-b2a0431bf03e 이 URL입니다. 알려주신 응답 헤더 얻는 코드를 이 URL에 적용해보니 이 URL은 다른거와 다르게 content dispoistion이 없었습니다 알 수 없는 사용자 2017.7.21 10:04

파이썬에서 다운로드 링크 (URL)가 기록된 CSV 파일을 읽어 들여 자동으로 다운로드 하는 코드

조회수 6513회

python

urllib

url

csv

0

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

5 답변

1

정영훈 15,709 points

2017-07-19 12:58:58에 작성됨

댓글 달기

0

정영훈 15,709 points

2017-07-19 12:03:48에 작성됨

댓글 달기

0

정영훈 15,709 points

2017-07-21 10:09:50에 작성됨

댓글 달기

0

정영훈 15,709 points

2017-07-24 13:34:18에 작성됨

댓글 달기

0

정영훈 15,709 points

2017-07-24 17:51:52에 작성됨

댓글 달기

파이썬에서 다운로드 링크 (URL)가 기록된 CSV 파일을 읽어 들여 자동으로 다운로드 하는 코드

조회수 6513회

python

urllib

url

csv

0

(•́ ✖ •̀)알 수 없는 사용자

댓글 입력

5 답변

1

정영훈 15,709 points

2017-07-19 12:58:58에 작성됨

댓글 달기

0

정영훈 15,709 points

2017-07-19 12:03:48에 작성됨

댓글 달기

0

정영훈 15,709 points

2017-07-21 10:09:50에 작성됨

댓글 달기

0

정영훈 15,709 points

2017-07-24 13:34:18에 작성됨

댓글 달기

0

정영훈 15,709 points

2017-07-24 17:51:52에 작성됨

댓글 달기

답변을 하려면 로그인이 필요합니다.

(•́ ✖ •̀)
알 수 없는 사용자