루비온 레일즈 이용한 웹 크롤링 질문입니다.
조회수 1986회
루비 온 레일즈를 공부하는 중입니다. 네이버 뉴스 기사 제목 4개를 긁어 오는 것을 하고 있는 데 제 생각대로 되지 않아 질문을 올립니다. 제가 짠 코드에서 #{c}로 하지 않고 0002713773, 0002713772, 0002713771, 0002713770 각각 따로 돌리면 잘 돌아가는 데 이부분을 반복문으로 돌리니 실행은 되는 데 결과물이 나오질 않습니다. 왜 그런지 궁금합니다.
@titles = Array.new
0002713773.downto(0002713770) do |c|
@url ="http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=032&aid=#{c}"
@page = Nokogiri::HTML(open(@url), nil, 'EUC-KR')
#@title = @page.search("title").text
@title = @page.css("#articleTitle")
@titles << @title.inner_text
end
그리고 또 공부를 하다보니 궁금한 게 한 가지 더 있습니다. curl을 이용하면 해당 html를 다운 받아 제 로컬에 저장할 수 있는 것을 아는 데 저는 특정 부분만 ( 기사제목, 기사 내용) 뽑아 html로 제 로컬에 저장하고 싶은 데 어떻게 해야되나요. 특정 부분을 뽑는 코드는 짰는 데 이를 로컬에 저장하는 법이 궁금합니다.
예를 들어 기사1은 제목과 내용만을 뽑아 1.html로 저장하고 기사2는 2.html 이런 식으로 저장하고 싶습니다.
-
(•́ ✖ •̀)
알 수 없는 사용자
댓글 입력