Scrapy를 이용한 크롤링좀 도와주세요

조회수 2156회
<span class="fnt_e07" lang="en">I <i class="fnt_e08 N=a:smd.words" tabindex="0" lang="en"><input type="hidden" name="assist" value="don" lang="en">don</i>'t <i class="fnt_e08 N=a:smd.words" tabindex="0" lang="en"><input type="hidden" name="assist" value="have" lang="en">have</i> <i class="fnt_e08 N=a:smd.words" tabindex="0" lang="en"><input type="hidden" name="assist" value="a" lang="en">a</i> <i class="fnt_e08 N=a:smd.words" tabindex="0" lang="en"><input type="hidden" name="assist" value="bank account" lang="en">bank <b lang="en">account</b></i>.</span>

제가 저기 코드에서 에 있는 텍스트 항목과 에 있는 텍스트 항목을 가져오려고하는데 저기 위 코드에서 보면 I don't have a bank account. 를 가져오고 싶은데 저렇게 태그로 짤려서 나눠져서 있어서 어떻게 가져와야 할지 모르겠습니다. 도와주세요 ㅠㅠ

  • (•́ ✖ •̀)
    알 수 없는 사용자

1 답변

  • 전체 문자열 중에서 <>를 포함해, <, > 로 쌓여있는 모든 문자열을 제거하면 될 것 같습니다.

    간단하게 예를 들면

    import re
    
    string = """<span class="fnt_e07" lang="en">I <i class="fnt_e08 N=a:smd.words" tabindex="0" lang="en"><input type="hidden" name="assist" value="don" lang="en">don</i>'t <i class="fnt_e08 N=a:smd.words" tabindex="0" lang="en"><input type="hidden" name="assist" value="have" lang="en">have</i> <i class="fnt_e08 N=a:smd.words" tabindex="0" lang="en"><input type="hidden" name="assist" value="a" lang="en">a</i> <i class="fnt_e08 N=a:smd.words" tabindex="0" lang="en"><input type="hidden" name="assist" value="bank account" lang="en">bank <b lang="en">account</b></i>.</span>"""
    text = re.sub(r'<[^>]*?>', '', string)
    
    print(text)
    

    출력 : I don't have a bank account.

    과 같이 쓸 수 있구요.

    정규 표현식은 tryhelloworld - 정규표현식에서 배울 수 있으며, regex101에서 테스트 할 수 있습니다

    • (•́ ✖ •̀)
      알 수 없는 사용자

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)