편집 기록

편집 기록
  • 프로필 nowp님의 편집
    날짜2021.11.25

    파이썬 dataframe re.sub 질문 올립니다.


    지금 데이터프레임을 이용한 api 정보 전처리 중에 있습니다. 쓸데 없는 텍스트를 없애기 위해서 아래와 같이 re.sub function을 사용했습니다.

    import re
    import pandas as pd
    
    regex = "\(.*\)|\s-\s.*"
    df = pd.dataframe(recipe)
    for i in range(len(df)):
        df['재료'][i] = re.sub(regex,'',df['재료'][i])
    

    이런식으로 재료 열에 데이터 중 괄호와 괄호 안에 있는 값을 없애려고 했는데 괄호부터 그 뒤에 있는 모든 텍스트가 싹다 날아갑니다.

    이미지

    이게 적용하기 전의 df,

    이미지

    두번째 사진이 위의 코드를 적용한 후의 df입니다.

    고구마죽\n 고구마, 설탕, 찹쌀가루... 처럼 뒷부분을 날리지 않고 괄호와 괄호 안에 있는 문자만 날리고 싶습니다. regex부분에서 문제가 있는거 같은데 봐주실 수 있을까요?

  • 프로필 JUNI님의 편집
    날짜2021.11.25

    파이썬 dataframe re.sub 질문 올립니다.


    지금 데이터프레임을 이용한 api 정보 전처리 중에 있습니다. 쓸데 없는 텍스트를 없애기 위해서 아래와 같이 re.sub function을 사용했습니다.

    import re import pandas as pd

    regex = "(.)|\s-\s." df = pd.dataframe(recipe) for i in range(len(df)): df['재료'][i] = re.sub(regex,'',df['재료'][i])

    이런식으로 재료 열에 데이터 중 괄호와 괄호 안에 있는 값을 없애려고 했는데 괄호부터 그 뒤에 있는 모든 텍스트가 싹다 날아갑니다.

    이미지

    이게 적용하기 전의 df,

    이미지

    두번째 사진이 위의 코드를 적용한 후의 df입니다.

    고구마죽\n 고구마, 설탕, 찹쌀가루... 처럼 뒷부분을 날리지 않고 괄호와 괄호 안에 있는 문자만 날리고 싶습니다. regex부분에서 문제가 있는거 같은데 봐주실 수 있을까요?