특정 시간에 웹페이지에서 업데이트 되는 정보를 읽어서 엑셀에 넣고 싶습니다.


  • 2016년 07월 26일에 수정됨
    루비와 파이썬을 좋아합니다. 새로운 언어를 배우는것도 좋아해요. 모바일 게임도 조금 만들어 봤습니다.
  • 2016년 07월 26일에 작성됨

조회수 362


3 답변


좋아요
1
싫어요
채택취소하기

특정 웹페이지 http://www.investing.com/economic-calendar/ 에 대한 html 분석을 통해서 웹크롤러를 만드셔야 될 것 같네요.

  1. 웹사이트에 있는 html 정보를 가져와 데이터를 정제하는 과정
  2. 정제된 데이터를 엑셀 파일로 저장하는 과정

위 두가지에 해당하는 프로그램을 만들면 됩니다. 아래 주소는 파이썬이라는 언어를 통해서 웹크롤러를 만드는 과정인데요. 참고하시면 좋을 것 같네요. 기본적으로 프로그래밍 언어에 대한 이해가 필요하기에 쉽지는 않을 것 같습니다.

아 그리고 제가 알기로는 웹크롤링 자체는 불법이 아닌데 크롤링한 컨텐츠를 무단으로 사용 시에는 불법으로 알고 있습니다. 개인적인 편의를 위해서라면 문제가 되지는 않을 것 같네요.


http://uslifelog.tistory.com/45


  • 2016년 07월 26일에 작성됨
    Software Engineer

  • 기본적으로 프로그램 실행 시간 기준으로 데이터를 가져오게 됩니다. 프로그램을 서버에 등록할 경우에는 주기적으로 프로그램을 실행하도록 설정할 수 있습니다. 물론 서버에 등록하지 않아도 가능하구요. 예를 들어 데이터가 1시간마다 업데이트되는 경우. 프로그램도 1시간마다 실행되게 설정하면 업데이트 된 데이터를 가져오게 됩니다. 데이터 양에 따라 다르겠지만, 질문하신 페이지를 기준으로 본다면 처리시간에 대한 딜레이는 없을 것 같네요.    김선우   2016.7.26 16:00     

엑셀을 이용하신다면 비주얼베이직으로 데이터를 읽어오실 수 있습니다.

아래 관련글을 참고해 보세요. http://bizanalytics.tistory.com/m/post/37

  • 2016년 07월 26일에 작성됨
    루비와 파이썬을 좋아합니다. 새로운 언어를 배우는것도 좋아해요. 모바일 게임도 조금 만들어 봤습니다.


웹 크롤링의 경우, node.js를 사용하신다면 cheerio npm 모듈을 이용해 쉽게 구현하실 수 있습니다.

관련 링크: https://cheeriojs.github.io/cheerio/

구글에 키워드로 검색하시면 자료가 많이 나옵니다 ~


로그인이 필요한 기능입니다.

Hashcode는 개발자들을 위한 무료 QnA사이트 입니다. 작성한 답변에 다른 개발자들이 댓글을 작성하거나 좋아요/싫어요를 할 수 있기 때문에 계정을 필요로 합니다.
► 로그인
► 계정만들기
Close