터칭 데이터

요약 본문

하둡과 Spark

요약

터칭 데이터 2024. 1. 22. 12:02

 

 

 

요약

 

Spark 파일 포맷으로 가장 최적은 PARQUET

 

Spark Job 최적화를 위해서는 Execution Plan 확인

 

Bucketing과 Partitioning을 통해 입력 데이터 구조를 최적화

 

 

 

 

 

 

'하둡과 Spark' 카테고리의 다른 글

Spark EMR 론치  (0) 2024.01.22
Intro  (0) 2024.01.22
Bucketing과 Partitioning  (0) 2024.01.20
Spark 내부동작 (Execution Plan) - 실습  (0) 2024.01.20
Spark 내부동작 (Execution Plan)  (0) 2024.01.20