파이썬 웹 크롤링 및 웹 스크래핑 질문

조회수 537회

http://www.steeland.net/myboard/sub2_1 이 사이트에 있는 업체 정보를 저장하는 스크래핑 코드를 작성중입니다. 그런데, 속성 값에 업체 정보가 다 들어있어요. 이 페이지에 있는 업체들 정보를 저장하고 싶은데

import pandas as pd
import requests
import re
from urllib.request import urlopen
from bs4 import BeautifulSoup
import openpyxl

def getLinks(pageUrl) :

    global pages
    j=2
    for num in range(1, 8):          # A-1,A-2... 이 메뉴를 돌아다님
        html1 = ("http://www.steeland.net/shop_contents/myboard_list.htm?page=1&myboard_code=sub2_" + str(num))
        for num1 in range(1, 2):   #  페이지를 돌아다님.
            html2 = html1.replace("page=1", "page=" + str(num1))
            print(html2)        #접속한 페이지 주소 표시
            html = urlopen(html2)
            bsObj = BeautifulSoup(html,"html.parser")
            company_Info_list=[]
            company_Info_list = bsObj.select(
                '#container01 > div.cont.sub > div.sb1_2.sb2_1 > div.sc2 > div.company_list > ul > li > div')

            data=[]
            print(company_Info_list)
            for obj in company_Info_list:
                print(obj.a.attrs)
                print(obj.a['data-title'],obj.a.get('data-name03'),obj.a.get('data-name04'),obj.a.get('data-name05'),obj.a.get('data-name06'),obj.a.get('data-name07'),obj.a.get('data-name08'),obj.a.get('data-name09'))
                data=obj.a.get('data-title'),obj.a.get('data-name03'),obj.a.get('data-name04'),obj.a.get('data-name05'),obj.a.get('data-name06'),obj.a.get('data-name07'),obj.a.get('data-name08'),obj.a.get('data-name09')

getLinks(" ")

이렇게 작성했더니 가장 위에있는 속성값만 받아옵니다 한페이지 안에 있는 속성값을 전부 받아오려면 어떻게 해야할까요?

  • 가장 위에 있는 속성과 한 페이지 안에 있는 속성값 전부가 뭘 말하는건지 모르겠어요. 편집요청빌런 2020.4.9 10:47

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)