Accumulators

SparkML

Accumulators

터칭 데이터 2024. 2. 5. 13:24

Spark 고급과 Spark ML

Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자

1. Spark 기타 기능과 메모리 관리
2. Spark Shuffling 최적화
3. Spark Partition 학습
4. Spark ML 소개와 ML 모델 빌딩
5. ML Pipeline과 Tuning 소개와 실습

기타 기능/개념 살펴보기

자주 필요하지는 않지만 알아두면 좋은 기능들을 살펴보자

Accumulators란?

특정 이벤트의 수를 기록하는데 사용됨 -> 일종의 전역 변수

● 하둡에서 카운터와 아주 흡사

예를 들면 비정상적인 값을 갖는 레코드의 수를 세는데 사용

Accumulators의 특징

변경 가능한 전역변수로 드라이버에 위치

스칼라로 만들면 이름을 줄 수 있지만 그 이외에는 불가

● 이름있는 accumulator만 Spark Web UI에 나타남

레코드 별로 세거나 합을 구하는데 사용 가능

두 가지 방법으로 사용 가능하며 값의 정확도도 달라짐

● Transformation에서 사용
▪ 이 경우 값이 부정확할 수 있음 (태스크의 재실행과 speculative execution)
● DataFrame/RDD Foreach에서 사용
▪ 추천되는 방식으로 이 경우 정확함

예제코드

advanced_week1/(Spark_고급)_Accumulator.ipynb

'SparkML' 카테고리의 다른 글

Spark Scheduler (0)	2024.02.05
Resource Dynamic Allocation (0)	2024.02.05
Speculative Execution (0)	2024.02.05
기타기능 Intro와 Broadcast Variable (0)	2024.02.05
Intro (0)	2024.02.05

현재글Accumulators

터칭 데이터

Fun QA, funqa, 연결 리스트, 재귀, 이분탐색, Django, 데이터 시각화, 가상환경, 워드클라우드, 넥토리얼, Templates, 챗지피티, 장고, seaborn, FQA, 넥슨게임즈, Seabron, 채용의나라, ChatGPT, URL 별칭,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

터칭 데이터

Accumulators

Spark 고급과 Spark ML

Contents

기타 기능/개념 살펴보기

Accumulators란?

특정 이벤트의 수를 기록하는데 사용됨 -> 일종의 전역 변수

예를 들면 비정상적인 값을 갖는 레코드의 수를 세는데 사용

Accumulators의 특징

변경 가능한 전역변수로 드라이버에 위치

스칼라로 만들면 이름을 줄 수 있지만 그 이외에는 불가

레코드 별로 세거나 합을 구하는데 사용 가능

두 가지 방법으로 사용 가능하며 값의 정확도도 달라짐

예제코드

'SparkML' 카테고리의 다른 글

'SparkML'의 다른글

티스토리툴바

Accumulators

Spark 고급과 Spark ML

Contents

기타 기능/개념 살펴보기

Accumulators란?

특정 이벤트의 수를 기록하는데 사용됨 -> 일종의 전역 변수

예를 들면 비정상적인 값을 갖는 레코드의 수를 세는데 사용

Accumulators의 특징

변경 가능한 전역변수로 드라이버에 위치

스칼라로 만들면 이름을 줄 수 있지만 그 이외에는 불가

레코드 별로 세거나 합을 구하는데 사용 가능

두 가지 방법으로 사용 가능하며 값의 정확도도 달라짐

예제코드

'SparkML' 카테고리의 다른 글

'SparkML'의 다른글

관련글

티스토리툴바