Beautiful soup로 크롤링중 urllib.error.HTTPError: HTTP Error 302라는 에러가 뜹니다.

조회수 1360회

urllib.error.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop. The last 30x error message was: Moved Temporarily

라고 에러가 뜨는데요. 스택오버플로를 보니 긁어오고 싶은 페이지가 쿠키가 필요하며 클라이언트가 쿠키를 전송하지 않을시 redirect 하기때문에 위와 같은 에러가 뜬다고 합니다.(You get the infinite loop error because the page you want to scrape uses cookies and redirects when the cookie isn't sent by the client. )

뭔가 브라우저의 제한? 같은걸 풀면 해결될것 같기도 한데 통계학과 학생이고 웹이나 쿠키 이런쪽으로 아는바가 없어 이해가 쉽게 가지 않습니다.. 혹시 해결의 실마리를 주실수 있거나 비슷한 에러를 겪으신분 계시는가요??

  • (•́ ✖ •̀)
    알 수 없는 사용자

2 답변

  • 어떤 페이지 이신지 자세하게 알려주실 수 있나요?

    사용하신 코드도 같이 올려주세요.

    • (•́ ✖ •̀)
      알 수 없는 사용자
  • def KyungHyang_parse():

    #페이지 탐색
    for j in range(1,2):
        url = "http://news.khan.co.kr/kh_news/khan_art_list.html?code=990101&page="  
        url = url + str(j)
    
    
        print(j,"번째 페이지에 접근 합니다. 주소는 :", url)
    
        response = urllib.request.urlopen(url) #여기서 오류가 납니다. 
        time.sleep(2)
        print("sleep for 2 seconds")
    
        soup = BeautifulSoup(response, "html.parser")
    
        article_list = soup.find("div",id = 'news_list')
        print(article_list)
    

    코드라 해봤자 이정도 뿐입니다. Beautifulsoup redirect avoid 라고 구글링해도 뾰족한 답이 안나오네요... 사이트는 보시다 싶이 경향신문입니다.

    • (•́ ✖ •̀)
      알 수 없는 사용자

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)