파이썬 스크레이핑 대상 링크 수집하기

Question

파이썬 스크레이핑 대상 링크 수집하기

조회수 766회

python

scraping

beautifulsoup

urllib

link

-1

싫어요

아래 코드의 URL1을 접속하면 하단에 페이지가 있습니다. URL1의 마지막부분 page가 1에서 93page까지 있고, 페이지 안에서 제공되는 링크를 수집하고자 하는데,

URL1: https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id=700&page=1

링크정보 수집이 필요한 페이지는 URL2와 같이 각 페이지에서 접근할 수 있는 페이지입니다. URL2: https://www.jobplanet.co.kr/companies/42216

URL2와 같은 각 페이지 내 접근할 수 있는 기업별 정보에 대한 링크 어떻게 코딩해야될지 도움 부탁드립니다.

(URL2 끝부분의 5자리 기업코드 수집방법만 확인을 해주셔도 좋습니다..)

도움 부탁드립니다!!

from bs4 import BeautifulSoup
import csv
import os
import re
import requests
import json

# jobplanet
BaseUrl = 'https://www.jobplanet.co.kr/companies?sort_by=review_compensation_cache&industry_id=700&page='


for i in range(1, 5, 1):
        url = BaseUrl + str(i)
        r = requests.get(url)
        soup = BeautifulSoup(r.text,'lxml')
        body = soup.select('#listCompanies > div > div.section_group > section:nth-child(1) > div > div > dl.content_col2_3.cominfo > dt > a')
        #print(body)

        linkUrl = []
        for item in body:
            link = item.get('href')
            linkUrl.append(link)
print(linkUrl)

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

Answer 1

파이썬 스크레이핑 대상 링크 수집하기

조회수 766회

python

scraping

beautifulsoup

urllib

link

-1

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

1 답변

0

정영훈 15,709 points

2019-11-22 04:04:53에 작성됨

댓글 달기

파이썬 스크레이핑 대상 링크 수집하기

조회수 766회

python

scraping

beautifulsoup

urllib

link

-1

(•́ ✖ •̀)알 수 없는 사용자

댓글 입력

1 답변

0

정영훈 15,709 points

2019-11-22 04:04:53에 작성됨

댓글 달기

답변을 하려면 로그인이 필요합니다.

(•́ ✖ •̀)
알 수 없는 사용자