편집 기록

프로필 nowp님의 편집

날짜2021.04.30
각 행의 column 개수가 다른 파일을 pandas의 read_table로 불러오는 방법이 없을까요?

python

pandas
예를 들어

1 2 2 3 4 3

이런 식의 파일을 pandas의 read_table로 불러오려고 하는데 첫 행의 1 2를 보고선 칼럼이 2개라고 자동으로 인식을 해서 2 3 4가 있는 두번째 행에서 tokenizing error가 나더군요.
불러와야 할 텍스트 파일이 24개인데 텍스트 파일 하나가 1GB를 넘어가서 여는데만 시간이 꽤나 걸리기도 하고 해서 하나하나 최대 칼럼을 가진 행을 제일 위로 끌어올리기도 힘든 상황입니다.
모든 데이터가 다 필요한지라 bad_line_error = False 옵션을 사용하는 것도 좀 마음에 걸리구요.
open().read().splitlines 로 리스트화 해서 dataframe에 넣으려고 했더니 메모리 부족으로 코드가 중단됩니다. (물론 64bit 버전으로 받았습니다)
칼럼 개수를 미리 지정해둘 수 있으면 좋을거 같은데 방법이 안 떠오르네요. 혹시 아시는 분 계시면 조언 부탁드립니다.
프로필 알 수 없는 사용자님의 편집

날짜2021.04.29

각 행의 column 개수가 다른 파일을 pandas의 read_table로 불러오는 방법이 없을까요?

python

pandas

예를 들어
1 2
2 3 4
3
이런 식의 파일을 pandas의 read_table로 불러오려고 하는데 첫 행의 1 2를 보고선 칼럼이 2개라고 자동으로 인식을 해서 2 3 4가 있는 두번째 행에서 tokenizing error가 나더군요.
불러와야 할 텍스트 파일이 24개인데 텍스트 파일 하나가 1GB를 넘어가서 여는데만 시간이 꽤나 걸리기도 하고 해서 하나하나 최대 칼럼을 가진 행을 젤 위로 끌어올리기도 힘든 상황입니다.
모든 데이터가 다 필요한지라 bad_line_error = False 옵션을 사용하는 것도 좀 마음에 걸리구요.
open().read().splitlines 로 리스트화 해서 dataframe에 넣으려고 했더니 메모리 부족으로 코드가 중단됩니다..(물론 64bit 버전으로 받았습니다)
칼럼 개수를 미리 지정해둘 수 있으면 좋을거 같은데 방법이 안 떠오르네요.. 혹시 아시는 분 계시면 조언 부탁드립니다..

편집 기록

편집 기록

프로필 nowp님의 편집

날짜2021.04.30

각 행의 column 개수가 다른 파일을 pandas의 read_table로 불러오는 방법이 없을까요?

python

pandas

프로필 알 수 없는 사용자님의 편집

날짜2021.04.29

각 행의 column 개수가 다른 파일을 pandas의 read_table로 불러오는 방법이 없을까요?

python

pandas