만약에 각기 다른 리스트가 2번 반복 되어서 각각을 반복하여 비교하고 제거하는 코드를 짜려면 어떻해 할까요?
조회수 695회
'''코드'''
import requests
from bs4 import BeautifulSoup
base_url = 'http://web.rtpcompany.com/info/data/'
req = requests.get(base_url)
html = req.text
soup = BeautifulSoup(html, 'html.parser')
my_titles = soup.select('td > a')
def get_html(url) :
html = ""
resp = requests.get(url)
if resp.status_code == 200 :
html = resp.text
return html
for title in my_titles:
pages = []
print(title.text)
pages.append(base_url + title.get('href'))
print(pages)
for page in pages:
c = get_html(page)
soup = BeautifulSoup(c)
for td in soup('td > a'):
result_title = td.get_text()
print(result_title)
제목에 있는 내용 그대로 입니다.
여러 곳을 방황해서 이것저것 섞인 괴생명체가 된 코드입니다.ㅎㅎ
잘 돌아가긴 하는데, 문제는 4번째 단의 pages에 각각 하나의 리스트에 base url + 자신이 가져온 href 주소를 넣은 것이 두번씩 반복 됩니다. 그래서 아래의 딸려오는 내용도 두번(ㅡㅡ;;)
문제가 뭔지 보니 같은 주소를 가지고 있는 태그가 2개씩 있더군요.
각각의 리스트를 비교하여 하나만 남도록 코드를 짜려하는데 어느 부분에 넣는게 좋을까요? 추천하시는 방법이 있으신가요?
-
(•́ ✖ •̀)
알 수 없는 사용자
댓글 입력