파이썬 dataframe re.sub 질문 올립니다.
조회수 1618회
지금 데이터프레임을 이용한 api 정보 전처리 중에 있습니다. 쓸데 없는 텍스트를 없애기 위해서 아래와 같이 re.sub function을 사용했습니다.
import re
import pandas as pd
regex = "\(.*\)|\s-\s.*"
df = pd.dataframe(recipe)
for i in range(len(df)):
df['재료'][i] = re.sub(regex,'',df['재료'][i])
이런식으로 재료 열에 데이터 중 괄호와 괄호 안에 있는 값을 없애려고 했는데 괄호부터 그 뒤에 있는 모든 텍스트가 싹다 날아갑니다.
이게 적용하기 전의 df,
두번째 사진이 위의 코드를 적용한 후의 df입니다.
고구마죽\n 고구마, 설탕, 찹쌀가루... 처럼 뒷부분을 날리지 않고 괄호와 괄호 안에 있는 문자만 날리고 싶습니다. regex부분에서 문제가 있는거 같은데 봐주실 수 있을까요?
댓글 입력