HTML 보이는 내용과 크롤링 했을때 내용이 다를경우

조회수 44회

크롬 개발자 환경 도구에서 보이는 내용은

<img style="width: 900px; height: 4000px;" vspace="0" hspace="5" src="/web/upload/NNEditor/20180808/ECA095ED95B4EC9DB8_EC9790ECBD94EBB0B1_ST.jpg">

입니다.

그리고 크롤링 했을때 내용은

<img ec-data-src="/web/upload/NNEditor/20180808/ECA095ED95B4EC9DB8_EC9790ECBD94EBB0B1_ST.jpg" hspace="5" src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAQAAAC1HAwCAAAAC0lEQVR4nGP6zwAAAgcBApocMXEAAAAASUVORK5CYII="" style="width: 900px; height: 4000px;" vspace="0"/>

이렇게 나옵니다..

src 를 잡아서 이미지 URL 만 얻어오려고 합니다.

근데 위와같이 어떤 경우는 ec-data-src 의 URL을 가져와야 하고, 어떤 경우는 src 의 URL 만 가져와야 하는 경우가 있습니다.

# HTML = <img ec-data-src="/web/upload/NNEditor/20180808/ECA095ED95B4EC9DB8_EC9790ECBD94EBB0B1_ST.jpg" hspace="5" src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAQAAAC1HAwCAAAAC0lEQVR4nGP6zwAAAgcBApocMXEAAAAASUVORK5CYII="" style="width: 900px; height: 4000px;" vspace="0"/>

if 'data' in HTML :
     l1 = x['ec-data-src']

 else:
     l1 = x['src']


문제는 'data' in HTML 을 잡지를 못합니다.. ㅠㅠ 분명 'ec-data-src' 가 있는데 자꾸 else 로 넘어가 버리네요...

왜 그런걸까요 어떻게 해결해야 할까요..?

감사합니다.

  • 개발자도구보다는 페이지 소스보기로 태그를 확인해보세요 minibox724 2020.6.27 17:04

답변을 하려면 로그인이 필요합니다.

Hashcode는 개발자들을 위한 무료 QnA 사이트입니다. 계정을 생성하셔야만 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)

ᕕ( ᐛ )ᕗ
로그인이 필요합니다

Hashcode는 개발자들을 위한 무료 QnA사이트 입니다. 계정을 생성하셔야만 글을 작성하실 수 있습니다.