pyspark for문 최적화 질문

조회수 487회
    for i in range(2,10):
        folders1 = ["./data/20200"+str(i)+"/*.csv"]
        print(str(i),"월")
        df0 = spark.read.option("header", "false").csv(folders1) 
        df0.createOrReplaceTempView("data")
        result0 = spark.sql("SELECT * FROM data WHERE _c1 ="+str(i)))
        globals()['count{}'.format(i)]=result0.count()

이런식으로 for문을 돌리는데 너무 느려서요 혹시 스파크에서는 이런 for문을 간단하게 해결하는 함수가 따로 있나요 ?

  • 대상 파일을 모두 읽어서 한번에 처리해야 합니다. 그리고 createOrReplaceTempView 로 뷰를 만들면 삭제도 해줘야 합니다. 정영훈 2021.8.27 10:28

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)