python - pyspark for문 최적화 질문 | 프로그래머스 커뮤니티

pyspark for문 최적화 질문

조회수 487회

python

좋아요

0

싫어요

    for i in range(2,10):
        folders1 = ["./data/20200"+str(i)+"/*.csv"]
        print(str(i),"월")
        df0 = spark.read.option("header", "false").csv(folders1) 
        df0.createOrReplaceTempView("data")
        result0 = spark.sql("SELECT * FROM data WHERE _c1 ="+str(i)))
        globals()['count{}'.format(i)]=result0.count()

이런식으로 for문을 돌리는데 너무 느려서요 혹시 스파크에서는 이런 for문을 간단하게 해결하는 함수가 따로 있나요 ?

jayjin 0 points

2021-08-26 10:26:09에 작성됨

대상 파일을 모두 읽어서 한번에 처리해야 합니다. 그리고 createOrReplaceTempView 로 뷰를 만들면 삭제도 해줘야 합니다. 정영훈 2021.8.27 10:28

댓글 입력

브라우저에서 자바스크립트를 활성화하는 방법