SparkML

Accumulators

터칭 데이터 2024. 2. 5. 13:24

Spark 고급과 Spark ML


Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자

 

 

 

 

 

 

 

 

Contents


1. Spark 기타 기능과 메모리 관리
2. Spark Shuffling 최적화
3. Spark Partition 학습
4. Spark ML 소개와 ML 모델 빌딩
5. ML Pipeline과 Tuning 소개와 실습

 

 

 

 

 

 

기타 기능/개념 살펴보기

 

자주 필요하지는 않지만 알아두면 좋은 기능들을 살펴보자

 

 

 

 

 

 

Accumulators란?

 

특정 이벤트의 수를 기록하는데 사용됨 -> 일종의 전역 변수

● 하둡에서 카운터와 아주 흡사

 

예를 들면 비정상적인 값을 갖는 레코드의 수를 세는데 사용

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Accumulators의 특징

 

변경 가능한 전역변수로 드라이버에 위치

 

스칼라로 만들면 이름을 줄 수 있지만 그 이외에는 불가

● 이름있는 accumulator만 Spark Web UI에 나타남

 

레코드 별로 세거나 합을 구하는데 사용 가능

 

두 가지 방법으로 사용 가능하며 값의 정확도도 달라짐

● Transformation에서 사용
    ▪ 이 경우 값이 부정확할 수 있음 (태스크의 재실행과 speculative execution)
● DataFrame/RDD Foreach에서 사용
    ▪ 추천되는 방식으로 이 경우 정확함

 

예제코드

advanced_week1/(Spark_고급)_Accumulator.ipynb

 

 

 

 

 

 

'SparkML' 카테고리의 다른 글

Spark Scheduler  (0) 2024.02.05
Resource Dynamic Allocation  (0) 2024.02.05
Speculative Execution  (0) 2024.02.05
기타기능 Intro와 Broadcast Variable  (0) 2024.02.05
Intro  (0) 2024.02.05