예를 들어
1 2
2 3 4
3
이런 식의 파일을 pandas
의 read_table
로 불러오려고 하는데 첫 행의 1 2
를 보고선 칼럼이 2개라고 자동으로 인식을 해서 2 3 4
가 있는 두번째 행에서 tokenizing error
가 나더군요.
불러와야 할 텍스트 파일이 24개인데 텍스트 파일 하나가 1GB를 넘어가서 여는데만 시간이 꽤나 걸리기도 하고 해서 하나하나 최대 칼럼을 가진 행을 제일 위로 끌어올리기도 힘든 상황입니다.
모든 데이터가 다 필요한지라 bad_line_error = False
옵션을 사용하는 것도 좀 마음에 걸리구요.
open().read().splitlines
로 리스트화 해서 dataframe에 넣으려고 했더니 메모리 부족으로 코드가 중단됩니다. (물론 64bit 버전으로 받았습니다)
칼럼 개수를 미리 지정해둘 수 있으면 좋을거 같은데 방법이 안 떠오르네요. 혹시 아시는 분 계시면 조언 부탁드립니다.