터칭 데이터

Intro (Spark 내부동작) 본문

하둡과 Spark

Intro (Spark 내부동작)

터칭 데이터 2024. 1. 20. 08:51

 

 

 

 

Contents


1. Spark 파일 포맷

Parquet, Avro, csv, json

 

2. Execution Plan

Spark이 우리가 만든 코드를 어떻게 실행할 지 보겠습니다.

Action과 Transformation의 차이를 살펴봅니다.

하나의 액션이 하나의 잡이고 하나의 잡이 다수의 스테이지를 만들 수 있고 하나의 스테이지가 다수의 태스크를 만들 수 있습니다.

 

그리고 이런 Execution Plan을 Spark Web UI로 살펴볼 수 있습니다.

 

3. Bucketing과 Partitioning

데이터를 처리하기 쉬운 형태로 HDFS에 저장하는 방식에 대해 살펴보겠습니다.

 

 

 

 

 

'하둡과 Spark' 카테고리의 다른 글

Spark 내부동작 (Execution Plan)  (0) 2024.01.20
Spark 파일포맷  (0) 2024.01.20
요약  (0) 2024.01.19
유닛테스트  (0) 2024.01.18
Hive - 메타스토어 사용하기  (0) 2024.01.18