csv에서 불용어 어떻게 뽑아낼까요?

조회수 505회
val['Riviews'] = val['Riviews'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
val['Riviews'].replace('', np.nan, inplace=True)
val.head()

from konlpy.tag import Okt
okt = Okt()

불용어를 여기서 뽑아내야하는데, df안 리뷰는 Riviews인데 이 안에서 불용어를 찾아 제거 하고 싶어요

train['tokenized'] = train['Riviews'].apply(okt.morphs)
train['tokenized'] = train['tokenized'].apply(lambda x: [item for item in x if item not in stopwords])

1 답변

  • 좋아요

    1

    싫어요
    채택 취소하기

    불용어는 데이터에서 뽑아낼 수는 없을 것 같고요. 그냥 이미 알고 있는 조사나, 너무 자주 나오는 대명사 등등을 미리 가지고 있는 것 같아요. 이전 질문에서도 stop_words는 그냥 하드코딩되어 있잖아요. 추가적으로 데이터에서 안 걸러진 불용어가 있다면, 그거 다시 추가하고... 이런 식일 듯 합니다.

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)