웹스크래핑 중 계속 IP 차단 당하는데, 제가 지금까지 시도해본 방법 보시고 조언 좀 부탁드려요
조회수 420회
딥러닝 모델로 분석해보고 싶어서 온라인 커뮤니티 게시글을 스크래핑하려 합니다.
현재까지는 파이썬과 beautifulsoup으로 진행했는데, 최대 성공 페이지가 5페이지네요.. 한 페이지당 게시글 20개니 현재까지 게시글 100개가 최대네요.. 또륵
자꾸 다음 문구(HTTP Error 429: Too Many Requests)가 뜨며 IP를 차단당합니다 ㅜ
IP 차단을 피하기 위해 현재까지 시도했던 것들입니다.
1. 게시글 한 개 스크래핑 할 때마다 잠시 멈춤
MAX_SLEEP_TIME = 5
rand_value = random.randint(1, MAX_SLEEP_TIME)
time.sleep(rand_value)
2. user agent 변경
navigator = generate_navigator()
headers = {
"User-Agent": navigator['user_agent'],
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
}
댓글 입력