dfs[0]
, dfs[1]
~ dfs[8]
까지 데이터가 있습니다.
from transformers import AutoTokenizer
from collections import defaultdict
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased", do_lower_case = True)
# 0번
word_freqs_0 = defaultdict(int)
for text in dfs[0]['comment']:
words_with_offsets = tokenizer.backend_tokenizer.pre_tokenizer.pre_tokenize_str(text)
new_words = [word for word, offset in words_with_offsets]
for word in new_words:
word_freqs_0[word] = word_freqs_0[word] + 1
# 1번
word_freqs_1 = defaultdict(int)
for text in dfs[1]['comment']:
words_with_offsets = tokenizer.backend_tokenizer.pre_tokenizer.pre_tokenize_str(text)
new_words = [word for word, offset in words_with_offsets]
for word in new_words:
word_freqs_1[word] = word_freqs_1[word] + 1
이런식으로 8번까지 작성했습니다.
위 문장을 반복문을 사용해 word_freqs[0]
~ word_freqs[8]
로 만들고 싶은데 어떻게 해야 할까요
word_freqs = defaultdict(int)
변수를 선언후 append
로 입력하고 싶은데 잘 안되네요