편집 기록

프로필 엽토군님의 편집

날짜2022.06.10
웹스크래핑 중 계속 IP 차단 당하는데, 제가 지금까지 시도해본 방법 보시고 조언 좀 부탁드려요

웹스크래핑

web-crawling

ip차단
딥러닝 모델로 분석해보고 싶어서 온라인 커뮤니티 게시글을 스크래핑하려 합니다.
현재까지는 파이썬과 beautifulsoup으로 진행했는데, 최대 성공 페이지가 5페이지네요.. 한 페이지당 게시글 20개니 현재까지 게시글 100개가 최대네요.. 또륵
자꾸 다음 문구(HTTP Error 429: Too Many Requests)가 뜨며 IP를 차단당합니다 ㅜ
IP 차단을 피하기 위해 현재까지 시도했던 것들입니다.
1. 게시글 한 개 스크래핑 할 때마다 잠시 멈춤

MAX_SLEEP_TIME = 5 rand_value = random.randint(1, MAX_SLEEP_TIME) time.sleep(rand_value)

2. user agent 변경

navigator = generate_navigator() headers = { "User-Agent": navigator['user_agent'], "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8" }
프로필 강태수님의 편집

날짜2022.06.08
웹스크래핑 중 계속 IP 차단 당하는데, 제가 지금까지 시도해본 방법 보시고 조언 좀 부탁드려요

웹스크래핑

web-crawling

ip차단
딥러닝 모델로 분석해보고 싶어서 온라인 커뮤니티 게시글을 스크래핑하려 합니다.
현재까지는 파이썬과 beautifulsoup으로 진행했는데, 최대 성공 페이지가 5페이지네요.. 한 페이지당 게시글 20개니 현재까지 게시글 100개가 최대네요.. 또륵 자꾸 다음 문구(HTTP Error 429: Too Many Requests)가 뜨며 IP를 차단당합니다 ㅜ
IP 차단을 피하기 위해 현재까지 시도했던 것들입니다.

게시글 한 개 스크래핑 할 때마다 잠시 멈춤 MAX_SLEEP_TIME = 5 rand_value = random.randint(1, MAX_SLEEP_TIME) time.sleep(rand_value)

user agent 변경 navigator = generate_navigator() headers = { "User-Agent": navigator['user_agent'], "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8" }

편집 기록

편집 기록

프로필 엽토군님의 편집

날짜2022.06.10

웹스크래핑 중 계속 IP 차단 당하는데, 제가 지금까지 시도해본 방법 보시고 조언 좀 부탁드려요

웹스크래핑

web-crawling

ip차단

프로필 강태수님의 편집

날짜2022.06.08

웹스크래핑 중 계속 IP 차단 당하는데, 제가 지금까지 시도해본 방법 보시고 조언 좀 부탁드려요

웹스크래핑

web-crawling

ip차단