기업공시정보 dart.fss.or.kr 크롤링 텍스트와 링크 가져오기
조회수 1149회
http://dart.fss.or.kr/dsac001/mainAll.do
위 링크에서 노출되는 공들 중 최근 것부터 시작해 5개 정도의 공시의 공시대상회사명 / 보고서명 / 보고서의 링크를 가져오려면 어떻게 해야 하나요??
<tbody>
에 있는 것은 알겠는데 어떻게 따와야할지 모르겠습니다..
2 답변
-
-
위 답변자님께서 관련 모듈을 소개해 주셨지만 혹시 몰라서 간단한 크롤링 코드 올려 봅니다.
공시대상회사명, 보고서명, 보고서 주소를 크롤링하는 코드입니다.
from bs4 import BeautifulSoup import urllib.request import re # html 파싱 with urllib.request.urlopen("http://dart.fss.or.kr/dsac001/mainAll.do") as response: html = response.read() soup = BeautifulSoup(html, 'html.parser') trs = soup.findAll('tr')[1:5+1] # 상위 5개 목록 for tr in trs: td = tr.findAll('td') company = re.sub(r'[\t\n\r ]', '', td[1].find('a').text) # 공시대상회사명 report = re.sub(r'[\t\n\r ]', '', tr.findAll('td')[2].find('a').text) # 보고서명 report_link = 'dart.fss.or.kr' + tr.findAll('td')[2].find('a').attrs['href'] # 보고서 주소 print('공시대상회사명:', company, '\t보고서명:', report, '\t보고서 주소:', report_link) # 출력
-
(•́ ✖ •̀)
알 수 없는 사용자
-
댓글 입력