각 행의 column 개수가 다른 파일을 pandas의 read_table로 불러오는 방법이 없을까요?

Question

각 행의 column 개수가 다른 파일을 pandas의 read_table로 불러오는 방법이 없을까요?

조회수 519회

python

pandas

1

싫어요

예를 들어

1 2
2 3 4
3

이런 식의 파일을 pandas의 read_table로 불러오려고 하는데 첫 행의 1 2를 보고선 칼럼이 2개라고 자동으로 인식을 해서 2 3 4가 있는 두번째 행에서 tokenizing error가 나더군요.

불러와야 할 텍스트 파일이 24개인데 텍스트 파일 하나가 1GB를 넘어가서 여는데만 시간이 꽤나 걸리기도 하고 해서 하나하나 최대 칼럼을 가진 행을 제일 위로 끌어올리기도 힘든 상황입니다.

모든 데이터가 다 필요한지라 bad_line_error = False 옵션을 사용하는 것도 좀 마음에 걸리구요.

open().read().splitlines 로 리스트화 해서 dataframe에 넣으려고 했더니 메모리 부족으로 코드가 중단됩니다. (물론 64bit 버전으로 받았습니다)

칼럼 개수를 미리 지정해둘 수 있으면 좋을거 같은데 방법이 안 떠오르네요. 혹시 아시는 분 계시면 조언 부탁드립니다.

nowp 9,214 points

2021-04-30 16:32:50에 수정됨
(•́ ✖ •̀)
알 수 없는 사용자
〉

댓글 입력

score 0 · Accepted Answer

대충 찾아보니.. 그냥 다 1열에 받아버린 다음 각 행을 돌면서 적당히 쪼개서 쓰는 방법도 있을듯 하네요. https://stackoverflow.com/a/50914351

근데 저라면 좀 귀찮더라도:

파일을 csv로 변환합니다. 스크립트를 만들든지 아니면 그냥 해당 파일을 엑셀로 열어서 별 생각없이 다른 이름으로 저장 합니다.
read_csv()를 돌립니다.

원시데이터의 delimiter가 띄어쓰기 인 거라면, 원시데이터 파일을 읽어서, 띄어쓰기가 제일 많은 행을 찾아서, 몇 개의 띄어쓰기가 있는지 구하면, 거기에 +1 한 값이 컬럼 수 최대값이 될 겁니다. 그냥 대충 그거 가지고 어떻게 하면 될듯 한데요.

행운을 빕니다.