터칭 데이터

Driver Executor OOM 본문

SparkML

Driver Executor OOM

터칭 데이터 2024. 2. 5. 14:12

 

Spark 고급과 Spark ML


Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자

 

 

 

 

 

 

 

 

Contents


1. 기타 기능/개념 살펴보기
2. Driver와 Executor 해부
3. 메모리 이슈 정리
4. JVM과 Python 간의 통신
5. Caching과 Persist
6. Dynamic Partition Pruning

 

 

 

 

 

 

메모리 이슈 정리

 

Driver와 Executor에서 발생가능한 메모리 이슈들을 정리해보자

 

 

 

 

 

 

Spark 메모리 이슈 (OOM)

❖ Driver OOM

❖ Executor OOM

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Driver OOM 케이스들

 

큰 데이터셋에 collect 실행

 

큰 데이터셋을 Broadcast JOIN

 

Python이나 R 등으로 작성된 코드

 

너무 많은 태스크들

 

 

 

 

 

 

 

 

 

 

 

Executor OOM 케이스들

 

너무 큰 executor.cores 값

● High Concurrency

 

Data Skew (Big Partition)

 

 

 

 

 

'SparkML' 카테고리의 다른 글

Cache & Persist  (0) 2024.02.05
Driver Executor Memory  (0) 2024.02.05
Spark Scheduler  (0) 2024.02.05
Resource Dynamic Allocation  (0) 2024.02.05
Speculative Execution  (0) 2024.02.05