epl 홈페이지 크롤링 질문

조회수 640회

이미지 ![이미지][1]

사진을 잘 못찍어서 양해 부탁드립니다.

epl 홈페이지에서 match stat에 들어있는 요소들을 뽑아오고 싶은데 그 경로에 대해서 xpath로 따오려고 하니 tbody까지는 불러와지는데 그안에 요소들 뽑으려고하면 빈 selector가 나오네요...

머신러닝 공부하느라 데이터 수집 하려고 하는데, 데이터를 못 뽑아서 계속 시간만 가고 진도는 안나가네요..ㅜㅜ py27 기반에서 scrapy랑 selenium으로 사용하고 있었습니다. 어떻게하면 저 안에 요소들을 뽑을 수 있을까요?

  • (•́ ✖ •̀)
    알 수 없는 사용자
  • 찾아보니 유료 API들은 있네요. 그쪽을 이용한다는 옵션은 없나요? 단지 학습시킬 자료만 한 번 쭉 받아오는 거라면 해볼 만한데… 엽토군 2018.10.12 20:24

1 답변

  • 일단 해당 Stats 탭을 눌렀을 경우에

    이 API를 통해 데이터를 가져오고 그걸 이용하여 나중에 렌더링 하는 페이지 입니다. 비동기 통신을 통해 on-demand로 데이터를 수급하여 내용을 채우므로 단순히 해당 페이지 URL에 접속했을 경우에는 아직 xpath로 selecting 한 element들은 없는 상태죠.

    (<table>까지는 존재 합니다. 그 내용물이 없어요.)

    1. Stats 탭을 셀렉팅 하여 Selenium으로 해당 탭을 클릭
    2. 데이터를 받고 페이지가 모두 렌더링 될 때까지 충분히 기다리기 (약 5초 sleep)

    로직이 추가되어야 할 겁니다.

    그나저나 학습시키시려면 데이터 엄청 뽑으셔야 할 텐데

    위에 적은 API는 직접 접근은 안되는 것 같고... 흐음...

    오지랍같지만, 크롤링으로는 수요를 충족하기 힘들 것 같은 느낌이 드네요. 한참 돌리셔야 할 듯.

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)