파이썬 크롤링 robots.txt관련 질문 있습니다.


import urllib.request
import io

def is_allowed(url):
    if url.endswith('/'):
        path = url

    else:
        path = url + '/'
    req = urllib.request.urlopen(path + "robots.txt", data=None)
    data = io.TextIOWrapper(req, encoding = 'utf-8')
    return data.read()

제가 의도한 코드는 해당url에 robots.txt가 있을 경우에 그 내용을 요청하는 코드인데요 robots.txt가 없을경우에는 에러가 떠야 하는데 해당 루트페이지에 HTML코드가 응답이 옵니다. 조금씩 공부중인데 어디가 잘못되있는지 잘 모르겠습니다.. 답변 부탁드립니다.

  • 2018년 02월 05일에 작성됨

조회수 104


로그인이 필요한 기능입니다.

Hashcode는 개발자들을 위한 무료 QnA사이트 입니다. 작성한 답변에 다른 개발자들이 댓글을 작성하거나 좋아요/싫어요를 할 수 있기 때문에 계정을 필요로 합니다.
► 로그인
► 계정만들기
Close