dataframe 재구조 질문드립니다.
조회수 412회
데이터의 형태
for tag,weekday in zip(data['해쉬태그'],data['요일'] ) :
chuncks = tag.split(',')
for check_term in chuncks :
term_set =check_term.strip()
print(term_set)
위 캡처본은 코드 결과입니다.
크롤링한 해시태그 데이터가 문자로 인식이 되어 큰따옴표와 [ ] 문자도 같이 출력됩니다.
Q. 질문: 제가 하고 싶은 것은 검색어(클라이밍, 클린이, 볼더링)별로 해쉬태그에서 상위 10개 해시태그가 요일별로 어떠한 추세를 보이는지 확인하고 싶습니다.
- 검색어가 클라이밍일 때의 상위 10개 해시태그를 먼저 찾았다는 가정하에 해당 해시태그 단어들이 data['해쉬태그']에 포함된 게시물의 수를 파악하여 히트맵을 그려보려고 합니다.
- 검색어로 필터조건을 어떻게 코딩화해야할지 모르겠습니다.
- 제가 생각한 내용으로는 data['해쉬태그']에 상위 단어가 포함되면 1, 아니면 0을 부여해서 새로운 열을 추가한 후 해당열에서 검색어 별로 1로 저장된 값을 다 더하면 게시물의 수를 확인할 수 있지 않을까?... 라고 생각했습니다.
- 데이터 구조를 어떻게 코딩으로 짤 수 있을지 도움 부탁드립니다.
# find 함수 사용
for top_hashtag in ["볼더링","클린이","클라이밍","육아스타그램","더클라임","데일리"]:
key_set = []
for tag,weekday in zip(data['해쉬태그'],data['요일'] ) :
try:
chuncks = tag.split(',')
if chuncks.find(top_hashtag ):
data[top_hashtag ] = 1
else:
data[top_hashtag ] =0
except:
pass
-
(•́ ✖ •̀)
알 수 없는 사용자
댓글 입력