파이썬 웹크롤링, html 내 다수 anchor 중 특정 anchor 선택하는 방법

조회수 677회

파이썬 웹크롤링 초보자입니다. BeautifulSoup을 활용해 네이버 뉴스 인링크 주소를 추출하는 게 목표입니다.

즉, 첨부 이미지에서 "http://sports.donga.com/"이 아닌 "https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=106&oid=382&aid=0000896566" 를 긁어오고 싶습니다.

아래처럼 코딩했는데 자꾸 http://sports.donga.com/만 프린팅되네요...

살려주십시오

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://search.naver.com/search.naver?&where=news&query=%22``%5B%EB%8B%A8%EB%8F%85%5D%22&sm=tab_pge&sort=1&photo=0&field=0&reporter_article=&pd=0&ds=&de=&docid=&nso=so:dd,p:all,a:all&mynews=0&refresh_start=0&start=1')
bsObject = BeautifulSoup(html, "html.parser")


news_urls = []
for cover in bsObject.find_all('li', {'class':'bx'}):
    link = cover.select('a.info')[0].get('href')
    news_urls.append(link)
print(news_urls)

이미지

  • (•́ ✖ •̀)
    알 수 없는 사용자
  • 1. 되도록 코드 전문을 올려주세요. 2.코드를 이미지로 올리지 마세요. 초보자 2021.3.15 14:38
  • 알려주셔서 감사합니다. 본문 수정했습니다. 알 수 없는 사용자 2021.3.15 14:45

1 답변

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)