SparkML

Speculative Execution

터칭 데이터 2024. 2. 5. 13:28

 

Spark 고급과 Spark ML


Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자

 

 

 

 

 

 

 

 

Contents


1. Spark 기타 기능과 메모리 관리
2. Spark Shuffling 최적화
3. Spark Partition 학습
4. Spark ML 소개와 ML 모델 빌딩
5. ML Pipeline과 Tuning 소개와 실습

 

 

 

 

 

 

기타 기능/개념 살펴보기

 

자주 필요하지는 않지만 알아두면 좋은 기능들을 살펴보자

 

 

 

 

 

 

Speculative Execution란?

느린 태스크를 다른 Worker node에 있는 Executor에서 중복 실행

● 이를 통해 Worker node의 하드웨어 이슈등으로 느려지는 경우 빠른 실행을 보장
● 하지만 Data Skew로 인해 오래 걸린다면 도움이 안되고 리소스만 낭비하게 됨

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Speculative Execution 제어방식

 

spark.speculation으로 컨트롤 가능하며 기본은 False (비활성화)

● 하둡 MapReduce에서부터 있던 기능

 

다양한 환경변수로 세밀하게 제어 가능