혹시 빅데이터 데이터 합치기 할수 있나요???

조회수 1188회

![이미지][1]python 3.7 버전에 anaconda pycharm 입니다 저희 csv 파일에 1000000개의 열이 있는데요 내용은 대략 이렇습니다. 혹시 같은 상품 ID의 갯수를 합칠수 있나요??

바꾸고 싶은 답 :

이렇게 상품 id 하고 갯수(갯수는 더했습니다)만 나타내도록 만들고 싶습니다.

22 6

24 10

31 3

    raw csv data
   clientID  상품ID 상품정보 갯수
   324        24.    옷.   4
   531.       22.   냉장고. 3
   432.       24.   옷.    3
   433.       24.   옷.    3
   434.       31.   냉장고. 3
   435.       22.   냉장고. 3

2 답변

  • 저라면...

    aws 를 이용해보겠습니다.

    csv 파일을 S3 에 올립니다.

    RDS 를 이용해서 AURORA(MYSQL 호환DBMS) 를 셋팅합니다.

    aws lambda 펑션을 python or node 로 작성하여 S3에 저장되어 있는 csv 파일을 핸들링하여 aurora DB로 마이그레이션 하겠습니다.

    rdbms에 저장되었으니 SQL 을 사용하여 원하는대로 조회하면 됩니다.

    음...AWS를 이용안한다면 파이썬에 내장되어 있는 SQLITE 엔진을 이용하겠습니다.

    1회성의 작업이면....PANDAS 을 이용하는 방법도 편합니다.

    • 혹시 제가 pandas를 사용하고 있는데 판다스로 하는 방법좀 알려줄수 있나요?? ㅠㅠ 강명진 2018.12.30 14:49
  • 아래 예제를 보고 학습해보세요.

    import pandas as pd
    
    #data.csv
    '''
    clientID,상품ID,상품정보,갯수
    324,24,옷,4
    531,22,냉장고,3
    432,24,옷,3
    433,24,옷,3
    434,31,냉장고,3
    435,22,냉장고,3
    '''
    df = pd.io.parsers.read_csv("data.csv")
    df.groupby(['상품ID'])['갯수'].sum()
    '''
    상품ID
    22     6
    24    10
    31     3
    Name: 갯수, dtype: int64
    '''
    
    • 혹시 간단한 csv파일은 읽혔는데 제 빅데이터 csv파일은 읽히지가 않습니다 ㅠㅠ 어떻게 해야 할까요? 오류 사진파일은 위에 본질문에 올리겠습니다. ㅠㅠ 부탁드립니다 강명진 2018.12.31 21:26
    • 혹시 간단한 csv파일은 읽혔는데 제 빅데이터 csv파일은 읽히지가 않습니다 ㅠㅠ 어떻게 해야 할까요? 오류 사진파일은 위에 본질문에 올리겠습니다. ㅠㅠ 부탁드립니다 혹시 갯수가 높은 순서대로 sorting 한후에 그래프 bar형식으로 그릴수 있나요?? 강명진 2018.12.31 21:30
    • https://stackoverflow.com/questions/25962114/how-to-read-a-6-gb-csv-file-with-pandas 링크를 보세요. 소팅후 그래프도 그릴 수 있겠죠 그러나 공부는 스스로 하셔야죠. 정영훈 2019.1.1 03:29

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)