제가 크롤링을 제대로 이해하고있는걸까요?

조회수 531회

안녕하세요 크롤링을 하던중 막히게 되어 질문 올려봅니다..

로그인을해야 열리는 시스템에서 조회를 누르면 보이는 엑셀데이터를 크롤링하려는데

개발자도구 network쪽을 보니 어떠한 사이트에서 엑셀데이터가 넘어오는것 같습니다.

그러면 이걸 크롤링하기 위해선 Json 크롤링 기술들을 검색하는게 맞는걸까요?

어떠한 사이트라는걸 링크를 따 주소창에 연결해보니 접근불가라고 뜨더라구요... 이게 크롤링을 할 수 있는 건가 싶기도하고.. 사용자가 로그인을 해야 보여지는 데이터들을 크롤링 할 수 있는건가요?

그러면 여기서 ajax는 데이터가 저장되어있는 서버에 넘겨주는 세션값이라덜지 그런게 되는건가요??

제대로 이해하고있는건지 의심이 되어 질문 올려봅니다 ㅠㅠ..

  • (•́ ✖ •̀)
    알 수 없는 사용자

1 답변

  • 결론 : Selenium+Headless Chrome 조합으로 사용자가 직접 브라우저로 로그인한 것처럼 동작을 흉내내야 합니다.

    말씀하신 'Json 크롤링 기술'이란 단어가 좀 모호합니다...

    Json은 서버쪽에서 사용자 요청에 대해 데이터를 어떻게 반환할지 정한 format 중 하나입니다. 그래도 말씀하신 'Json 크롤링 기술을 사용한다'를 세분화 하자면,

    1. 일반적인 request 모듈로 GET, POST 요청을 보내는 행위

      • 본문에서 "어떠한 사이트라는걸 링크를 따 주소창에 연결해보니 접근불가라고 뜨더라구요.."는 단순히 그 사이트에 GET 요청을 보낸 행위에 해당합니다.
    2. Selenium+Headless Chrome 사용자가 직접 브라우저로 접속한 것처럼 모방하는 행위

    두 가지가 있을 것 같습니다. 질문으로 추측컨데 1번 방법으로는 접근 할 수 없고, 2번 조합으로 가야 할 것 같습니다. 2번 방식으로 코딩하는건 1번 보다 알아야할 것도 더 많고 더 까다롭습니다.

    • (•́ ✖ •̀)
      알 수 없는 사용자

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)