파이썬 웹 크롤링 및 웹 스크래핑 질문
조회수 537회
http://www.steeland.net/myboard/sub2_1 이 사이트에 있는 업체 정보를 저장하는 스크래핑 코드를 작성중입니다. 그런데, 속성 값에 업체 정보가 다 들어있어요. 이 페이지에 있는 업체들 정보를 저장하고 싶은데
import pandas as pd
import requests
import re
from urllib.request import urlopen
from bs4 import BeautifulSoup
import openpyxl
def getLinks(pageUrl) :
global pages
j=2
for num in range(1, 8): # A-1,A-2... 이 메뉴를 돌아다님
html1 = ("http://www.steeland.net/shop_contents/myboard_list.htm?page=1&myboard_code=sub2_" + str(num))
for num1 in range(1, 2): # 페이지를 돌아다님.
html2 = html1.replace("page=1", "page=" + str(num1))
print(html2) #접속한 페이지 주소 표시
html = urlopen(html2)
bsObj = BeautifulSoup(html,"html.parser")
company_Info_list=[]
company_Info_list = bsObj.select(
'#container01 > div.cont.sub > div.sb1_2.sb2_1 > div.sc2 > div.company_list > ul > li > div')
data=[]
print(company_Info_list)
for obj in company_Info_list:
print(obj.a.attrs)
print(obj.a['data-title'],obj.a.get('data-name03'),obj.a.get('data-name04'),obj.a.get('data-name05'),obj.a.get('data-name06'),obj.a.get('data-name07'),obj.a.get('data-name08'),obj.a.get('data-name09'))
data=obj.a.get('data-title'),obj.a.get('data-name03'),obj.a.get('data-name04'),obj.a.get('data-name05'),obj.a.get('data-name06'),obj.a.get('data-name07'),obj.a.get('data-name08'),obj.a.get('data-name09')
getLinks(" ")
이렇게 작성했더니 가장 위에있는 속성값만 받아옵니다 한페이지 안에 있는 속성값을 전부 받아오려면 어떻게 해야할까요?
댓글 입력