epl 홈페이지 크롤링 질문

Question

epl 홈페이지 크롤링 질문

조회수 640회

crawling

0

싫어요

사진을 잘 못찍어서 양해 부탁드립니다.
epl 홈페이지에서 match stat에 들어있는 요소들을 뽑아오고 싶은데 그 경로에 대해서 xpath로 따오려고 하니 tbody까지는 불러와지는데 그안에 요소들 뽑으려고하면 빈 selector가 나오네요...
머신러닝 공부하느라 데이터 수집 하려고 하는데, 데이터를 못 뽑아서 계속 시간만 가고 진도는 안나가네요..ㅜㅜ py27 기반에서 scrapy랑 selenium으로 사용하고 있었습니다. 어떻게하면 저 안에 요소들을 뽑을 수 있을까요?

(•́ ✖ •̀)
알 수 없는 사용자

찾아보니 유료 API들은 있네요. 그쪽을 이용한다는 옵션은 없나요? 단지 학습시킬 자료만 한 번 쭉 받아오는 거라면 해볼 만한데… 엽토군 2018.10.12 20:24

댓글 입력

score 1 · Accepted Answer

일단 해당 Stats 탭을 눌렀을 경우에

이 API를 통해 데이터를 가져오고 그걸 이용하여 나중에 렌더링 하는 페이지 입니다. 비동기 통신을 통해 on-demand로 데이터를 수급하여 내용을 채우므로 단순히 해당 페이지 URL에 접속했을 경우에는 아직 xpath로 selecting 한 element들은 없는 상태죠.

(<table>까지는 존재 합니다. 그 내용물이 없어요.)

Stats 탭을 셀렉팅 하여 Selenium으로 해당 탭을 클릭
데이터를 받고 페이지가 모두 렌더링 될 때까지 충분히 기다리기 (약 5초 sleep)

로직이 추가되어야 할 겁니다.

그나저나 학습시키시려면 데이터 엄청 뽑으셔야 할 텐데

위에 적은 API는 직접 접근은 안되는 것 같고... 흐음...

오지랍같지만, 크롤링으로는 수요를 충족하기 힘들 것 같은 느낌이 드네요. 한참 돌리셔야 할 듯.

epl 홈페이지 크롤링 질문

조회수 640회

crawling

0

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

1 답변

1

doodoji 2,793 points

2018-10-12 20:04:08에 작성됨

댓글 달기

epl 홈페이지 크롤링 질문

조회수 640회

crawling

0

(•́ ✖ •̀)알 수 없는 사용자

댓글 입력

1 답변

1

doodoji 2,793 points

2018-10-12 20:04:08에 작성됨

댓글 달기

답변을 하려면 로그인이 필요합니다.

(•́ ✖ •̀)
알 수 없는 사용자