파이썬 크롤링 robots.txt관련 질문 있습니다.
조회수 1025회
import urllib.request
import io
def is_allowed(url):
if url.endswith('/'):
path = url
else:
path = url + '/'
req = urllib.request.urlopen(path + "robots.txt", data=None)
data = io.TextIOWrapper(req, encoding = 'utf-8')
return data.read()
제가 의도한 코드는 해당url에 robots.txt가 있을 경우에 그 내용을 요청하는 코드인데요 robots.txt가 없을경우에는 에러가 떠야 하는데 해당 루트페이지에 HTML코드가 응답이 옵니다. 조금씩 공부중인데 어디가 잘못되있는지 잘 모르겠습니다.. 답변 부탁드립니다.
-
(•́ ✖ •̀)
알 수 없는 사용자
댓글 입력