csv에서 불용어 어떻게 뽑아낼까요?

Question

csv에서 불용어 어떻게 뽑아낼까요?

조회수 506회

python

nlp

0

싫어요

val['Riviews'] = val['Riviews'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
val['Riviews'].replace('', np.nan, inplace=True)
val.head()

from konlpy.tag import Okt
okt = Okt()

불용어를 여기서 뽑아내야하는데, df안 리뷰는 Riviews인데 이 안에서 불용어를 찾아 제거 하고 싶어요

train['tokenized'] = train['Riviews'].apply(okt.morphs)
train['tokenized'] = train['tokenized'].apply(lambda x: [item for item in x if item not in stopwords])

댓글 입력

score 1 · Accepted Answer

불용어는 데이터에서 뽑아낼 수는 없을 것 같고요. 그냥 이미 알고 있는 조사나, 너무 자주 나오는 대명사 등등을 미리 가지고 있는 것 같아요. 이전 질문에서도 stop_words는 그냥 하드코딩되어 있잖아요. 추가적으로 데이터에서 안 걸러진 불용어가 있다면, 그거 다시 추가하고... 이런 식일 듯 합니다.

csv에서 불용어 어떻게 뽑아낼까요?

조회수 506회

python

nlp

0

nowp 9,214 points

2022-01-10 07:59:21에 수정됨

Jinoo0807 16 points

2022-01-10 05:22:48에 작성됨

댓글 입력

1 답변

1

nowp 9,214 points

2022-01-10 09:28:12에 작성됨

댓글 달기

csv에서 불용어 어떻게 뽑아낼까요?

조회수 506회

python

nlp

0

nowp 9,214 points

2022-01-10 07:59:21에 수정됨

Jinoo0807 16 points

2022-01-10 05:22:48에 작성됨

댓글 입력

1 답변

1

nowp 9,214 points

2022-01-10 09:28:12에 작성됨

댓글 달기

답변을 하려면 로그인이 필요합니다.