편집 기록

편집 기록
  • 프로필 엽토군님의 편집
    날짜2022.06.10

    웹스크래핑 중 계속 IP 차단 당하는데, 제가 지금까지 시도해본 방법 보시고 조언 좀 부탁드려요


    딥러닝 모델로 분석해보고 싶어서 온라인 커뮤니티 게시글을 스크래핑하려 합니다.
    현재까지는 파이썬과 beautifulsoup으로 진행했는데, 최대 성공 페이지가 5페이지네요.. 한 페이지당 게시글 20개니 현재까지 게시글 100개가 최대네요.. 또륵
    자꾸 다음 문구(HTTP Error 429: Too Many Requests)가 뜨며 IP를 차단당합니다 ㅜ

    IP 차단을 피하기 위해 현재까지 시도했던 것들입니다.

    1. 게시글 한 개 스크래핑 할 때마다 잠시 멈춤

    MAX_SLEEP_TIME = 5 
    rand_value = random.randint(1, MAX_SLEEP_TIME)
    time.sleep(rand_value)
    

    2. user agent 변경

    navigator = generate_navigator()
    headers = {
        "User-Agent": navigator['user_agent'],
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
    }
    
  • 프로필 강태수님의 편집
    날짜2022.06.08

    웹스크래핑 중 계속 IP 차단 당하는데, 제가 지금까지 시도해본 방법 보시고 조언 좀 부탁드려요


    딥러닝 모델로 분석해보고 싶어서 온라인 커뮤니티 게시글을 스크래핑하려 합니다.
    현재까지는 파이썬과 beautifulsoup으로 진행했는데, 최대 성공 페이지가 5페이지네요.. 한 페이지당 게시글 20개니 현재까지 게시글 100개가 최대네요.. 또륵 자꾸 다음 문구(HTTP Error 429: Too Many Requests)가 뜨며 IP를 차단당합니다 ㅜ

    IP 차단을 피하기 위해 현재까지 시도했던 것들입니다.

    1. 게시글 한 개 스크래핑 할 때마다 잠시 멈춤 MAX_SLEEP_TIME = 5 rand_value = random.randint(1, MAX_SLEEP_TIME) time.sleep(rand_value)

    2. user agent 변경 navigator = generate_navigator() headers = { "User-Agent": navigator['user_agent'], "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8" }