특정 url이 '제품 상세 페이지'인지 확인하는 쉽고 빠른 방법이 있을까요?

조회수 356회

selenium으로 웹스크래퍼를 만들어 앵커태그의 href를 긁어오고 또 그 리스트에 하나씩 방문해 같은 작업을 반복하는 일종의 크롤러를 만들고 있습니다.

이 작업의 최종목적은 해외 사이트들 중 제품에 대한 정보를 담은 페이지들만 걸러모으는 것인데요.

모든 페이지가 url에 페이지의 성격에 대한 정보를 담고 있지도 않으니 일단은 쿼리스트링이 붙는 url은 제품 상세페이지가 아닐 것이다.-라는 가설로 접근해 url 파싱을 시도 중입니다. 그렇게 1차적으로 걸러낸 url 리스트에 한번씩 요청을 보내 h1 태그만 확인하고 넘어가는 코드를 짰는데, 이런 작업을 빠르게 할 만한 모듈이나 라이브러리가 있을까요?

사용가능 언어는 python과 js 정도 뿐입니다.

  • 보통은 반대로 접근합니다. 특정 패턴의 URL은 무조건 제품 정보 페이지라고 전제하고 일단 HTML을 까죠. 까봐서 제대로 잘 나오면 좋은 거고 안 나오면 그 다음은 그 다음에 생각하구요. 아닌막말로, 제품 상세 페이지엔 반드시 무엇무엇이 있어야 한다 하는 법규가 있는 것도 아니어서, 말씀하신 것과 같은 접근법으로는 원하시는 일을 하기가 어려울 거에요. 엽토군 2021.6.4 10:10
  • 사이트마다 주소를 할당하는 방식이 다르고, 또 모든 사이트에서 h1태그를 사용하는 것도 아닙니다. 하나의 사이트라면 비교적 간단하게 해결할 수도 있지만.. 불특정 다수의 사이트를 크롤링한다고 하니 더 어려워집니다. 초보자 2021.6.4 11:21
  • 작업속도에 고민이시면 쓰레드를 사용하시면 됩니다 김호원 2021.6.4 14:49

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)