파이썬 크롤링에 관하여 질문드립니다.(2차...)
조회수 624회
어제 질문에 이어 질문을 합니다..
import urllib.request
import bs4
x=informationurls[4] #informationurls는 1000개이상의 url이 str형태로 각각 들어간 리스트입니다
i=[]
html = urllib.request.urlopen(x)
bsObj = bs4.BeautifulSoup(html, "html.parser")
contents = bsObj.find("div", {"class":"user_content"})
print(contents.text)
이렇게하면 제가원하는 결과값이 매우 뚜렷하게 나옵니다 ex) 근무지역
경기 수원
급여 면접후 결정
전형절차 및 제출서류
전형절차 서류전형-> 실무 면접 -> 임원면접
제출서류 국문이력서 및 자기소개서
접수기간 및 방법
접수기간 ASAP
이력서양식 자사양식
접수방법 사람인 입사지원
기타 유의사항 입사지원 서류에 허위사실이 발견될 경우, 채용확정 이후라도 채용이 취소될 수 있습니다
이런식으로 제가원하는 값이 나옵니다 문제는 사실
import urllib.request
import bs4
for x in informationurls:
i=""
html = urllib.request.urlopen(x)
bsObj = bs4.BeautifulSoup(html, "html.parser")
contents = bsObj.find("div", {"class":"user_content"})
i+=contents.text
print(i)
이 뒤입니다 원래는 각각의 url별로 따로 나와야하는데 이건 ""안에 다 나와버리니 저걸 일일히 끊기엔 너무 양이 많아서 문제입니다 그래서 리스트로 넣었더니 이번엔 각글자별로 객체로인식해서 한 글자씩 리스트에 들어오니까 이건 아니다 싶었습니다.
다시 엑셀로 url별로 저장을 해야하는데 너무 막막합니다ㅠ 도움이 절실해요
-
(•́ ✖ •̀)
알 수 없는 사용자
댓글 입력