pyspark for문 최적화 질문
조회수 487회
for i in range(2,10):
folders1 = ["./data/20200"+str(i)+"/*.csv"]
print(str(i),"월")
df0 = spark.read.option("header", "false").csv(folders1)
df0.createOrReplaceTempView("data")
result0 = spark.sql("SELECT * FROM data WHERE _c1 ="+str(i)))
globals()['count{}'.format(i)]=result0.count()
이런식으로 for문을 돌리는데 너무 느려서요 혹시 스파크에서는 이런 for문을 간단하게 해결하는 함수가 따로 있나요 ?
댓글 입력