html을 통째로 가져오는 크롤러를 만들고 있는데요 (질문...)

Question

html을 통째로 가져오는 크롤러를 만들고 있는데요 (질문...)

조회수 502회

crawling

scraping

0

싫어요

하나의 csv 파일에 담겨진 수천개의 url 각각의 페이지 내용(이미지, 텍스트)에 대해 크롤러를 만들고 있습니다. 아직 초보라서 많은 어려움이 있다 보니 여기에 질문 드리게 되었습니다.
하나의 url에 있는 html을 일단 몽땅 가져온 다음
거기서 텍스트와 이미지를 구분해서 저장하는 크롤러를 만드려고 합니다.
어떤 방향으로 접근하면 좋을지 큰 틀부터 생각이 잘 안나는거 같네요.
고수님들의 도움이 필요합니다. 미리 감사합니다.

(•́ ✖ •̀)
알 수 없는 사용자

어렴풋이 생각하고 계실 그 방법이 맞습니다. 파일을 한 줄씩 읽는 루프 작업이 있을 텐데, 그 루프 안에서 각각의 URL을 일일이 크롤링하고 원하는 텍스트 뽑고 이미지 저장하고... 하는 걸 구현하시면 됩니다. 너무 오래 걸린다면 CSV 파일을 쪼갠 다음 각 CSV 파일에 대한 스크립트 실행을 동시에 병렬로 하면 되겠지요. 엽토군 2021.5.6 15:51

html을 통째로 가져오는 크롤러를 만들고 있는데요 (질문...)

조회수 502회

crawling

scraping

0

(•́ ✖ •̀)알 수 없는 사용자

댓글 입력

답변을 하려면 로그인이 필요합니다.

(•́ ✖ •̀)
알 수 없는 사용자