편집 기록

편집 기록
  • 프로필 nowp님의 편집
    날짜2021.04.30

    각 행의 column 개수가 다른 파일을 pandas의 read_table로 불러오는 방법이 없을까요?


    예를 들어

    1 2
    2 3 4
    3
    

    이런 식의 파일을 pandasread_table로 불러오려고 하는데 첫 행의 1 2를 보고선 칼럼이 2개라고 자동으로 인식을 해서 2 3 4가 있는 두번째 행에서 tokenizing error가 나더군요.

    불러와야 할 텍스트 파일이 24개인데 텍스트 파일 하나가 1GB를 넘어가서 여는데만 시간이 꽤나 걸리기도 하고 해서 하나하나 최대 칼럼을 가진 행을 제일 위로 끌어올리기도 힘든 상황입니다.

    모든 데이터가 다 필요한지라 bad_line_error = False 옵션을 사용하는 것도 좀 마음에 걸리구요.

    open().read().splitlines 로 리스트화 해서 dataframe에 넣으려고 했더니 메모리 부족으로 코드가 중단됩니다. (물론 64bit 버전으로 받았습니다)

    칼럼 개수를 미리 지정해둘 수 있으면 좋을거 같은데 방법이 안 떠오르네요. 혹시 아시는 분 계시면 조언 부탁드립니다.

  • 프로필 알 수 없는 사용자님의 편집
    날짜2021.04.29

    각 행의 column 개수가 다른 파일을 pandas의 read_table로 불러오는 방법이 없을까요?


    예를 들어

    1 2

    2 3 4

    3

    이런 식의 파일을 pandas의 read_table로 불러오려고 하는데 첫 행의 1 2를 보고선 칼럼이 2개라고 자동으로 인식을 해서 2 3 4가 있는 두번째 행에서 tokenizing error가 나더군요.

    불러와야 할 텍스트 파일이 24개인데 텍스트 파일 하나가 1GB를 넘어가서 여는데만 시간이 꽤나 걸리기도 하고 해서 하나하나 최대 칼럼을 가진 행을 젤 위로 끌어올리기도 힘든 상황입니다.

    모든 데이터가 다 필요한지라 bad_line_error = False 옵션을 사용하는 것도 좀 마음에 걸리구요.

    open().read().splitlines 로 리스트화 해서 dataframe에 넣으려고 했더니 메모리 부족으로 코드가 중단됩니다..(물론 64bit 버전으로 받았습니다)

    칼럼 개수를 미리 지정해둘 수 있으면 좋을거 같은데 방법이 안 떠오르네요.. 혹시 아시는 분 계시면 조언 부탁드립니다..