웹스크래핑 중 계속 IP 차단 당하는데, 제가 지금까지 시도해본 방법 보시고 조언 좀 부탁드려요

조회수 420회

딥러닝 모델로 분석해보고 싶어서 온라인 커뮤니티 게시글을 스크래핑하려 합니다.
현재까지는 파이썬과 beautifulsoup으로 진행했는데, 최대 성공 페이지가 5페이지네요.. 한 페이지당 게시글 20개니 현재까지 게시글 100개가 최대네요.. 또륵
자꾸 다음 문구(HTTP Error 429: Too Many Requests)가 뜨며 IP를 차단당합니다 ㅜ

IP 차단을 피하기 위해 현재까지 시도했던 것들입니다.

1. 게시글 한 개 스크래핑 할 때마다 잠시 멈춤

MAX_SLEEP_TIME = 5 
rand_value = random.randint(1, MAX_SLEEP_TIME)
time.sleep(rand_value)

2. user agent 변경

navigator = generate_navigator()
headers = {
    "User-Agent": navigator['user_agent'],
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
}
  • 수작업으로 100건을 퍼오는 건 되던가요? 엽토군 2022.6.8 18:03
  • 스크래핑하는 코드를 짜서 함수로 만든 다음에 반복문을 돌렸는데, 지금까지 시험 삼아 해본 것 중에서는 5번 반복을 돌려서 성공한 경우가 최고 기록?이네요 강태수 2022.6.8 19:27
  • 아뇨 수작업으로요. 코드 없이 무식하게 마우스를 잡고 긁어서 복사하면 100건을 가져올 수 있긴 하던가요? 커뮤니티가 어디냐에 따라서는, 재수가 없으면, 수작업 불펌도 못 하도록 조치를 취해 놨을 가능성도 있습니다. 엽토군 2022.6.9 13:51
  • 아~ 지금 대충 한 페이지 해보니 직접 긁어서 복붙하는 건 가능해 보입니다. 강태수 2022.6.9 18:00
  • 음 그러면 크롤링 코드를 잘짜야겠네요 근데 여기서부터는 저는 잘 답변을 못드리겠고 누군가 크롤링 많이 해보신 분들이 봐주셔야겠네요. 엽토군 2022.6.9 19:26
  • 네 ㅜ 관심 감사요 강태수 2022.6.10 09:29

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)