pandas에서 필터링 방법을 여쭙습니다

Question

pandas에서 필터링 방법을 여쭙습니다

조회수 682회

pandas

filtering

nlp

1

싫어요

안녕하세요 파이썬을 통해 자연어 처리(khaiii 활용)를 해서 아래와 같은 결과값을 도출했습니다.

import numpy as np
import pandas as pd
from khaiii import KhaiiiApi
api = KhaiiiApi()

df = pd.read_csv('president.csv', encoding = 'utf-8')
df = pd.DataFrame(df)

df['내용'] = df["내용"].str.replace(",", "") 

split = df.내용.str.split(".")
split = split.apply(lambda x: pd.Series(x))
split = split.stack().reset_index(level=1, drop=True).to_frame('sentences')
df = df.merge(split, left_index=True, right_index=True, how='left')
df = df.drop(['내용'], axis = 1)
df['sentences'].replace('', np.nan, inplace= True)  
df['sentences'].replace(' ', np.nan, inplace= True)
df.dropna(subset=['sentences'], inplace=True)
df = df.reset_index(drop=True) 

nlp = df.sentences.apply(lambda x: [str(w).split('\t')[1] for w in api.analyze(x)])

제가 하고 싶은 것은 뒤에 nlp 열에 있는 nng, vv, va로 태그된 단어 만을 추출하고 싶은데 아직 python 사용이 어려워 질문을 드립니다.

예를 들어 nlp의 첫 열을 기준으로

[젊(다), 때, 중소기업, 사장, 하(다)]

의 형태로 정제하고 싶습니다.

추가로 vv와 va 뒤에는 '다'를 붙여서 완전한 형태로 만들고 싶은데 방법을 알려주시면 너무나 감사하겠습니다.

(•́ ✖ •̀)
알 수 없는 사용자

https://drive.google.com/open?id=1IZ1NYJmbabv6Xo7WJeqRcDFl1Z5pumni 알 수 없는 사용자 2020.2.2 09:31

댓글 입력

score 0 · Accepted Answer

저는 복습겸 학습겸 하는 것이지만 제가 이렇게 하는 것이 질문자께 무슨 도움이 될지는 모르겠습니다.

현재 임베딩시 많이 사용하는 word2vec 을 이용한 샘플입니다.

모델은 skip gram 을 사용했습니다.

import itertools as it
import pandas as pd

from khaiii import KhaiiiApi

df = pd.read_csv('https://drive.google.com/u/0/uc?id=1IZ1NYJmbabv6Xo7WJeqRcDFl1Z5pumni&export=download')
df.drop(columns=['NO', '대통령', '날짜'], inplace=True)

api = KhaiiiApi()

def parse(sentence):
    pos = ((morph.lex, morph.tag) for word in api.analyze(sentence) for morph in word.morphs if morph.tag in ['NNG', 'VV', 'VA'])    # only nng, vv, va
    words = [item[0] if item[1] == 'NNG' else f'{item[0]}다' for item in pos]  # append suffix
    return words

df['nlp'] = df['내용'].apply(parse)

from gensim.models.word2vec import Word2Vec

model = Word2Vec(df['nlp'].values, sg=1, window=5, min_count=1, workers=4, iter=100) 
model.init_sims(replace=True)

print(model.wv.similarity('젊다','사장'))

print(model.wv.similarity('젊다','중소기업'))

# 빈도수
from collections import Counter
df['cnt'] = df['nlp'].apply(lambda words:dict(Counter(words)))

pandas에서 필터링 방법을 여쭙습니다

조회수 682회

pandas

filtering

nlp

1

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

4 답변

0

정영훈 15,709 points

2020-02-02 23:52:49에 작성됨

댓글 달기

1

정영훈 15,709 points

2020-02-02 06:22:18에 작성됨

댓글 달기

0

정영훈 15,709 points

2020-02-02 11:11:41에 작성됨

댓글 달기

0

정영훈 15,709 points

2020-02-02 19:41:22에 작성됨

댓글 달기

pandas에서 필터링 방법을 여쭙습니다

조회수 682회

pandas

filtering

nlp

1

(•́ ✖ •̀)알 수 없는 사용자

댓글 입력

4 답변

0

정영훈 15,709 points

2020-02-02 23:52:49에 작성됨

댓글 달기

1

정영훈 15,709 points

2020-02-02 06:22:18에 작성됨

댓글 달기

0

정영훈 15,709 points

2020-02-02 11:11:41에 작성됨

댓글 달기

0

정영훈 15,709 points

2020-02-02 19:41:22에 작성됨

댓글 달기

답변을 하려면 로그인이 필요합니다.

(•́ ✖ •̀)
알 수 없는 사용자