혹시 빅데이터 데이터 합치기 할수 있나요???
조회수 1188회
python 3.7 버전에 anaconda pycharm 입니다 저희 csv 파일에 1000000개의 열이 있는데요 내용은 대략 이렇습니다. 혹시 같은 상품 ID의 갯수를 합칠수 있나요??
바꾸고 싶은 답 :
이렇게 상품 id 하고 갯수(갯수는 더했습니다)만 나타내도록 만들고 싶습니다.
22 6
24 10
31 3
raw csv data
clientID 상품ID 상품정보 갯수
324 24. 옷. 4
531. 22. 냉장고. 3
432. 24. 옷. 3
433. 24. 옷. 3
434. 31. 냉장고. 3
435. 22. 냉장고. 3
2 답변
-
저라면...
aws 를 이용해보겠습니다.
csv 파일을 S3 에 올립니다.
RDS 를 이용해서 AURORA(MYSQL 호환DBMS) 를 셋팅합니다.
aws lambda 펑션을 python or node 로 작성하여 S3에 저장되어 있는 csv 파일을 핸들링하여 aurora DB로 마이그레이션 하겠습니다.
rdbms에 저장되었으니 SQL 을 사용하여 원하는대로 조회하면 됩니다.
음...AWS를 이용안한다면 파이썬에 내장되어 있는 SQLITE 엔진을 이용하겠습니다.
1회성의 작업이면....PANDAS 을 이용하는 방법도 편합니다.
-
아래 예제를 보고 학습해보세요.
import pandas as pd #data.csv ''' clientID,상품ID,상품정보,갯수 324,24,옷,4 531,22,냉장고,3 432,24,옷,3 433,24,옷,3 434,31,냉장고,3 435,22,냉장고,3 ''' df = pd.io.parsers.read_csv("data.csv") df.groupby(['상품ID'])['갯수'].sum() ''' 상품ID 22 6 24 10 31 3 Name: 갯수, dtype: int64 '''
- 혹시 간단한 csv파일은 읽혔는데 제 빅데이터 csv파일은 읽히지가 않습니다 ㅠㅠ 어떻게 해야 할까요? 오류 사진파일은 위에 본질문에 올리겠습니다. ㅠㅠ 부탁드립니다 강명진 2018.12.31 21:26
- 혹시 간단한 csv파일은 읽혔는데 제 빅데이터 csv파일은 읽히지가 않습니다 ㅠㅠ 어떻게 해야 할까요? 오류 사진파일은 위에 본질문에 올리겠습니다. ㅠㅠ 부탁드립니다 혹시 갯수가 높은 순서대로 sorting 한후에 그래프 bar형식으로 그릴수 있나요?? 강명진 2018.12.31 21:30
- https://stackoverflow.com/questions/25962114/how-to-read-a-6-gb-csv-file-with-pandas 링크를 보세요. 소팅후 그래프도 그릴 수 있겠죠 그러나 공부는 스스로 하셔야죠. 정영훈 2019.1.1 03:29
댓글 입력