epl 홈페이지 크롤링 질문
조회수 640회
사진을 잘 못찍어서 양해 부탁드립니다.
epl 홈페이지에서 match stat에 들어있는 요소들을 뽑아오고 싶은데 그 경로에 대해서 xpath로 따오려고 하니 tbody까지는 불러와지는데 그안에 요소들 뽑으려고하면 빈 selector가 나오네요...
머신러닝 공부하느라 데이터 수집 하려고 하는데, 데이터를 못 뽑아서 계속 시간만 가고 진도는 안나가네요..ㅜㅜ py27 기반에서 scrapy랑 selenium으로 사용하고 있었습니다. 어떻게하면 저 안에 요소들을 뽑을 수 있을까요?
-
(•́ ✖ •̀)
알 수 없는 사용자
1 답변
-
일단 해당 Stats 탭을 눌렀을 경우에
이 API를 통해 데이터를 가져오고 그걸 이용하여 나중에 렌더링 하는 페이지 입니다. 비동기 통신을 통해 on-demand로 데이터를 수급하여 내용을 채우므로 단순히 해당 페이지 URL에 접속했을 경우에는 아직 xpath로 selecting 한 element들은 없는 상태죠.
(
<table>
까지는 존재 합니다. 그 내용물이 없어요.)- Stats 탭을 셀렉팅 하여 Selenium으로 해당 탭을 클릭
- 데이터를 받고 페이지가 모두 렌더링 될 때까지 충분히 기다리기 (약 5초 sleep)
로직이 추가되어야 할 겁니다.
그나저나 학습시키시려면 데이터 엄청 뽑으셔야 할 텐데
위에 적은 API는 직접 접근은 안되는 것 같고... 흐음...
오지랍같지만, 크롤링으로는 수요를 충족하기 힘들 것 같은 느낌이 드네요. 한참 돌리셔야 할 듯.
댓글 입력