파이썬 웹크롤링 질문있습니다.

조회수 1115회

안녕하세요. 파이썬 초보입니다. 웹크롤링을 이용하여 장비 모니터링 사이트에서 장비명과 사용시간을 출력하고 싶습니다. 이미지

현재까지 구성한 코드이구요 저렇게 출력하면 strong 태그와 lmis 태그가 순차적으로 출력됩니다. IFIT16 이런것들은 장비명이고 strong태그, 1,320 과 같은 숫자들은 사용시간 Lmis 태그입니다. 제가 출력하고 싶은 형태는 lFIT16, 1,320 처럼 같은 줄에 나오게 하는겁니다. 작성한 코드에서 수정해야 할 부분과 추가해야 할 부분에 대해 질문드립니다. *사이트 HTML은 보안에 의해 외부 접속이 불가합니다.

또한 사용시간의 경우 1000시간 이상인 것들을 출력하고 싶어 if 문을 사용해봤지만 실패하여 조언을 구합니다.

도움이 될까 하여 사이트 구성과 일부 소스 올립니다. 이미지

IFIA10 1,320 처럼 표현되어 있습니다. 도와주세요ㅠ 이미지 이미지

이런식으로 구성되어 있습니다. 파란 밑줄 친 IFIA10과 LMIS 사용시간인 1,392부분을 빼내고 싶습니다. 1000시간 이상인 것들만요

  • (•́ ✖ •̀)
    알 수 없는 사용자

1 답변

  • soup = beautifulsoup(html, 'html.parser')
    for tb in soup.find_all("tr"):
        if tb.parent.name == 'tbody':
            print(tb.find('strong').text )
            print(tb.find('lmis').text )
    
    

    이렇게 하면 어떻게 나오나요?

    그리고, 전체 html을 긁어서 주셔야 정확한 문제점을 말해줄수 있어요..

    사진만 보고는 어떤 유니크한 테그를 특정지어서 가져와야할지를 모르니깐요.

    • AttributeError: NoneType' object has no attribute 'text' 메세지와 함께 실행이 안됩니다 text를 제외하면 출력은 되는데 태그랑 같이 지저분하게 나오구요 알 수 없는 사용자 2019.5.20 23:20
    • text달고 출력이 아예 하나도 안되는걸보면 맨위에서 텍스트가 없는 항목이 있나보네요 코드는 맞습니다. 올려주실때 페이지를 ctrl + s 로 저장하고 같이 첨부해주시면 훨신 정교하게 답변이 가능합니다. ohsangyun 2019.5.21 13:43
    • 그럼 text 사용 없이 태그를 제거하는 방법은 없나요? 올릴때 페이지 ctrl + s로 저장하라는 말씀이 이해가 잘 안됩니다ㅠ 알 수 없는 사용자 2019.5.21 13:48
    • 수정 확인부탁드립니다~ ohsangyun 2019.5.21 20:14
    • 같은 에러 메세지와 함께 실행이 안됩니다.ㅜ 전체 복사는 양이 방대하여 필요한 부분만 복사하여 첨부하였습니다. 확인 부탁드립니다. 알 수 없는 사용자 2019.5.22 02:40
    • 확인부탁드립니다. 알 수 없는 사용자 2019.5.27 07:35

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)