특정 url이 '제품 상세 페이지'인지 확인하는 쉽고 빠른 방법이 있을까요?
조회수 356회
selenium으로 웹스크래퍼를 만들어 앵커태그의 href를 긁어오고 또 그 리스트에 하나씩 방문해 같은 작업을 반복하는 일종의 크롤러를 만들고 있습니다.
이 작업의 최종목적은 해외 사이트들 중 제품에 대한 정보를 담은 페이지들만 걸러모으는 것인데요.
모든 페이지가 url에 페이지의 성격에 대한 정보를 담고 있지도 않으니 일단은 쿼리스트링이 붙는 url은 제품 상세페이지가 아닐 것이다.-라는 가설로 접근해 url 파싱을 시도 중입니다. 그렇게 1차적으로 걸러낸 url 리스트에 한번씩 요청을 보내 h1 태그만 확인하고 넘어가는 코드를 짰는데, 이런 작업을 빠르게 할 만한 모듈이나 라이브러리가 있을까요?
사용가능 언어는 python과 js 정도 뿐입니다.
댓글 입력