dataframe 재구조 질문드립니다.

조회수 412회

데이터의 형태

이미지

for tag,weekday in zip(data['해쉬태그'],data['요일'] ) :
    chuncks = tag.split(',')
    for check_term in chuncks :
        term_set =check_term.strip()
        print(term_set)

이미지

위 캡처본은 코드 결과입니다.
크롤링한 해시태그 데이터가 문자로 인식이 되어 큰따옴표와 [ ] 문자도 같이 출력됩니다.

Q. 질문: 제가 하고 싶은 것은 검색어(클라이밍, 클린이, 볼더링)별로 해쉬태그에서 상위 10개 해시태그가 요일별로 어떠한 추세를 보이는지 확인하고 싶습니다.

  1. 검색어가 클라이밍일 때의 상위 10개 해시태그를 먼저 찾았다는 가정하에 해당 해시태그 단어들이 data['해쉬태그']에 포함된 게시물의 수를 파악하여 히트맵을 그려보려고 합니다.
  2. 검색어로 필터조건을 어떻게 코딩화해야할지 모르겠습니다.
  3. 제가 생각한 내용으로는 data['해쉬태그']에 상위 단어가 포함되면 1, 아니면 0을 부여해서 새로운 열을 추가한 후 해당열에서 검색어 별로 1로 저장된 값을 다 더하면 게시물의 수를 확인할 수 있지 않을까?... 라고 생각했습니다.
  4. 데이터 구조를 어떻게 코딩으로 짤 수 있을지 도움 부탁드립니다.
# find 함수 사용
for top_hashtag in ["볼더링","클린이","클라이밍","육아스타그램","더클라임","데일리"]:
    key_set = []
    for tag,weekday in zip(data['해쉬태그'],data['요일'] ) :
        try:
            chuncks = tag.split(',')
            if chuncks.find(top_hashtag ):
                data[top_hashtag ] = 1
            else:
                data[top_hashtag ] =0

        except:
            pass
  • (•́ ✖ •̀)
    알 수 없는 사용자

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)