파이썬 크롤링에 관하여 질문드립니다.(2차...)

Question

파이썬 크롤링에 관하여 질문드립니다.(2차...)

조회수 624회

python

html

crawler

crawling

0

싫어요

어제 질문에 이어 질문을 합니다..

import urllib.request
import bs4

x=informationurls[4]  #informationurls는 1000개이상의 url이 str형태로 각각 들어간 리스트입니다
i=[]
html = urllib.request.urlopen(x)

bsObj = bs4.BeautifulSoup(html, "html.parser")
contents = bsObj.find("div", {"class":"user_content"})
print(contents.text)

이렇게하면 제가원하는 결과값이 매우 뚜렷하게 나옵니다 ex) 근무지역

경기 수원

급여 면접후 결정

전형절차 및 제출서류

전형절차 서류전형-> 실무 면접 -> 임원면접

제출서류 국문이력서 및 자기소개서

접수기간 및 방법

접수기간 ASAP

이력서양식 자사양식

접수방법 사람인 입사지원

기타 유의사항 입사지원 서류에 허위사실이 발견될 경우, 채용확정 이후라도 채용이 취소될 수 있습니다

이런식으로 제가원하는 값이 나옵니다 문제는 사실

import urllib.request
import bs4

for x in informationurls:
    i=""
    html = urllib.request.urlopen(x)

    bsObj = bs4.BeautifulSoup(html, "html.parser")
    contents = bsObj.find("div", {"class":"user_content"})
    i+=contents.text
    print(i)

이 뒤입니다 원래는 각각의 url별로 따로 나와야하는데 이건 ""안에 다 나와버리니 저걸 일일히 끊기엔 너무 양이 많아서 문제입니다 그래서 리스트로 넣었더니 이번엔 각글자별로 객체로인식해서 한 글자씩 리스트에 들어오니까 이건 아니다 싶었습니다.

다시 엑셀로 url별로 저장을 해야하는데 너무 막막합니다ㅠ 도움이 절실해요

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

score 1 · Accepted Answer

아래와 같이 딕셔너리를 생성하되 key로 url을 value는 html내용으로 하면 될 듯 합니다.

def getContents(x):
    html = urllib.request.urlopen(x)
    bsObj = bs4.BeautifulSoup(html, "html.parser")
    return bsObj.find("div", {"class":"user_content"}).text

contentsHolder = {x:getContents(x) for x in informationurls}

파이썬 크롤링에 관하여 질문드립니다.(2차...)

조회수 624회

python

html

crawler

crawling

0

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

1 답변

1

정영훈 15,709 points

2019-08-06 01:05:30에 작성됨

댓글 달기

파이썬 크롤링에 관하여 질문드립니다.(2차...)

조회수 624회

python

html

crawler

crawling

0

(•́ ✖ •̀)알 수 없는 사용자

댓글 입력

1 답변

1

정영훈 15,709 points

2019-08-06 01:05:30에 작성됨

댓글 달기

답변을 하려면 로그인이 필요합니다.

(•́ ✖ •̀)
알 수 없는 사용자