파이썬 크롤링에 관하여 질문드립니다.(2차...)

조회수 626회

어제 질문에 이어 질문을 합니다..

import urllib.request
import bs4

x=informationurls[4]  #informationurls는 1000개이상의 url이 str형태로 각각 들어간 리스트입니다
i=[]
html = urllib.request.urlopen(x)

bsObj = bs4.BeautifulSoup(html, "html.parser")
contents = bsObj.find("div", {"class":"user_content"})
print(contents.text)

이렇게하면 제가원하는 결과값이 매우 뚜렷하게 나옵니다 ex) 근무지역

경기 수원

급여 면접후 결정

전형절차 및 제출서류

전형절차 서류전형-> 실무 면접 -> 임원면접

제출서류 국문이력서 및 자기소개서

접수기간 및 방법

접수기간 ASAP

이력서양식 자사양식

접수방법 사람인 입사지원

기타 유의사항 입사지원 서류에 허위사실이 발견될 경우, 채용확정 이후라도 채용이 취소될 수 있습니다

이런식으로 제가원하는 값이 나옵니다 문제는 사실

import urllib.request
import bs4

for x in informationurls:
    i=""
    html = urllib.request.urlopen(x)

    bsObj = bs4.BeautifulSoup(html, "html.parser")
    contents = bsObj.find("div", {"class":"user_content"})
    i+=contents.text
    print(i)

이 뒤입니다 원래는 각각의 url별로 따로 나와야하는데 이건 ""안에 다 나와버리니 저걸 일일히 끊기엔 너무 양이 많아서 문제입니다 그래서 리스트로 넣었더니 이번엔 각글자별로 객체로인식해서 한 글자씩 리스트에 들어오니까 이건 아니다 싶었습니다.

다시 엑셀로 url별로 저장을 해야하는데 너무 막막합니다ㅠ 도움이 절실해요

  • (•́ ✖ •̀)
    알 수 없는 사용자

1 답변

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)