Spark에서 스케쥴 관리 오픈소스는 어떤걸 사용할 수 있나요?

조회수 487회

Spark에서 pyspark를 이용해서 데이터 수집, 정제, 분석을 하고 있습니다.

지금은 테스트 서버에서 큰 규모가 아니라 단순 crontab에서 관리를 하고 있는데

몇 개월 안으로 보안인증 문제와 함께 진행 되는 절차가 있어

Spark에서 배치성으로 돌리는 파일들을 스케쥴러로 관리하려 합니다.

Ambari, hue, oozie, zookeeper, CDH등을 활용할 수 있는 것으로 아는데

하둡을 사용하지 않고 spark만을 스케쥴러를 통해 활용하려면 어떻게 해야하고

어떤 오픈 소스를 활용하는 것이 좋을까요?

궁극적으로 crontab과 같이 실행 스케쥴과 원격 접속을 하지않고 보안이 어느정도 가능한 web ui에서 스크립트 수정 또는 등록 등의 관리가 가능했으면 좋겠습니다.

  • 젠킨스 사용해보세요. 정영훈 2020.7.10 10:25
  • 혹시 어떤식으로 사용하는건가요 김재민 2020.7.12 21:27
  • 사용방법은 서적 혹은 튜터리얼을 보셔야 할 것 같습니다. CI/CD 도구인데 스케쥴러로도 충분히 사용가능합니다. 정영훈 2020.7.13 06:30

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)