Spark 고급과 Spark ML Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자 Contents 1. 기타 기능/개념 살펴보기 2. Driver와 Executor 해부 3. 메모리 이슈 정리 4. JVM과 Python 간의 통신 5. Caching과 Persist 6. Dynamic Partition Pruning Caching과 Persist 어느 데이터시스템이건 반복되어서 사용되는 데이터가 있다면 메모리에 두는 것이 좋은데 Spark에서 사용법에 대해 알아보자 Caching 1. Caching이란 무엇이며 왜 caching이 필요한가? 2. 어떻게 DataFrame을 caching하는가? 3. 언제 caching하고 언제 하지 말아야 하는가? 4. Caching을 취소하는 방..