파이썬으로 크롤링 시 클래스명이 다른 부분을 크롤링하는 조건문

조회수 37회

파이썬으로 Selenium과 BeautifulSoup을 이용해 크롤링 중 입니다.

wlist = list(range(10))
driver = webdriver.Chrome('//chromedriver')
driver.get('url')
time.sleep(1)
for i in wlist:
    thumb = driver.find_elements_by_class_name('tit_area')
    thumb[i].click()
    time.sleep(1)

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    w_title = soup.find('span', {'class': 'tit_toon'})
    print(w_title.text.strip())

    w_pdate_e = soup.find_all('p', {'class': 'epsode_date'})
    if w_pdate_e != None:
        print(w_pdate_e[0].text.strip())
        print(w_pdate_e[-1].text.strip())
    else:
        pass

    w_pdate_t = soup.find_all('td', {'class': 'toon_date'})
    if w_pdate_t != None:
        print(w_pdate_t[0].text.strip())
        print(w_pdate_t[-1].text.strip())
    else:
        pass

    driver.back()
    time.sleep(1)

다음과 같이 텍스트를 긁어올때 페이지 마다 어떤 페이지는 클래스 명이 'epsod_date'라고 되어있고 어떤 페이지는 'toon_date' 라고 되어있을 때 조건을 어떻게 해야 둘다 가져올 수 있나요??

  • 어떤 홈페이지 인지 말씀해주시면 좋을거같은데요. episode 아닌가요 오타 아닌가하는데 개인적으로. 김호원 2020.9.15 17:44
  • https://toptoon.com/weekly 이 사이트 입니다 donghaeum 2020.9.15 22:37

1 답변

답변을 하려면 로그인이 필요합니다.

Hashcode는 개발자들을 위한 무료 QnA 사이트입니다. 계정을 생성하셔야만 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)

ᕕ( ᐛ )ᕗ
로그인이 필요합니다

Hashcode는 개발자들을 위한 무료 QnA사이트 입니다. 계정을 생성하셔야만 글을 작성하실 수 있습니다.