Bucketing과 Partitioning
Contents 1. Spark 파일 포맷 Parquet, Avro, csv, json 2. Execution Plan Spark이 우리가 만든 코드를 어떻게 실행할 지 보겠습니다. Action과 Transformation의 차이를 살펴봅니다. 하나의 액션이 하나의 잡이고 하나의 잡이 다수의 스테이지를 만들 수 있고 하나의 스테이지가 다수의 태스크를 만들 수 있습니다. 그리고 이런 Execution Plan을 Spark Web UI로 살펴볼 수 있습니다. 3. Bucketing과 Partitioning 데이터를 처리하기 쉬운 형태로 HDFS에 저장하는 방식에 대해 살펴보겠습니다. Bucketing과 Partitioning HDFS 데이터를 처리 형태에 맞춰 최적화할 수 있다면 처리 시간을 단축하고 리소스..