python 으로 웹서버상의 pdf 파일 다운로드방법

Question

python 으로 웹서버상의 pdf 파일 다운로드방법

조회수 5446회

python

urllib

0

싫어요

제가 짜려고 하는 코드는 구글 학술정보지에 나오는 논문 pdf파일들을 html상의 다운로드 주소를 통해 일괄 다운로드하여 어떤 코드를 짜보려고하고 있습니다. 그런데 이 다운로드 과정에서 몇가지 문제가 발생하였는데, 우선 제가 실행한 코드를 보면

def get_download(url,fname,directory):
      try:
        os.chdir(directory)
        print(url)
        request.urlretrieve(url,fname)
        print('다운로드 완료')
    except HTTPError as e:
        print(e)
        return None

여기서 request.urlretrieve를 사용하여 파일을 다운받을때 세가지경우가 나왔습니다

첫번째는 다행히 다운로드가 잘 받아지는경우,

두번째는 http 에러가 발생하는경우,

세번째는 다운로드가 실행은 되나 pdf파일이 사용할수 없다고 나오는 경우입니다.

여기서

두번째의경우는

예를들어 url:http://www.academia.edu/download/35716149/leach.pdf 같은 경우로

(실제url:https://s3.amazonaws.com/academia.edu.documents/35716149/leach.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1514444614&Signature=A6SdIuGn4hxxEcZjQTWsZmxg%2Fx0%3D&response-content-disposition=inline%3B%20filename%3DEnergy-Efficient_Communication_Protocol.pdf)

구글 학술정보지에서 pdf버튼을 클릭했을때 들어가지는 url과 html파일안에 명시된 url이 다른경우 인데요 이경우는 방법을 못찾겠어서 일단 예외로 처리하였고,

세번째의 경우에는

url:http://journals.sagepub.com/doi/pdf/10.1038/jcbfm.1993.48같은 경우인데,

url이 pdf파일을 직접적으로 명시하지 않아서 그런건지 url을 이용하여 파일을 다운로드 할 경우 읽을 수 없는 파일이라고 나왔습니다.

이런 문제를 해결하기 위해서는 어떤부분을 공부해야하는지 알고싶습니다.

최성욱 0 points

2017-12-28 15:06:01에 작성됨

댓글 입력

Answer 1

정영훈 15,709 points

2017-12-28 17:39:00에 작성됨

Answer 2