전체 글 373

Speculative Execution

Spark 고급과 Spark ML Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자 Contents 1. Spark 기타 기능과 메모리 관리 2. Spark Shuffling 최적화 3. Spark Partition 학습 4. Spark ML 소개와 ML 모델 빌딩 5. ML Pipeline과 Tuning 소개와 실습 기타 기능/개념 살펴보기 자주 필요하지는 않지만 알아두면 좋은 기능들을 살펴보자 Speculative Execution란? 느린 태스크를 다른 Worker node에 있는 Executor에서 중복 실행 ● 이를 통해 Worker node의 하드웨어 이슈등으로 느려지는 경우 빠른 실행을 보장 ● 하지만 Data Skew로 인해 오래 걸린다면 도움이 안되고 리소스만 낭비하..

SparkML 2024.02.05

Accumulators

Spark 고급과 Spark ML Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자 Contents 1. Spark 기타 기능과 메모리 관리 2. Spark Shuffling 최적화 3. Spark Partition 학습 4. Spark ML 소개와 ML 모델 빌딩 5. ML Pipeline과 Tuning 소개와 실습 기타 기능/개념 살펴보기 자주 필요하지는 않지만 알아두면 좋은 기능들을 살펴보자 Accumulators란? 특정 이벤트의 수를 기록하는데 사용됨 -> 일종의 전역 변수 ● 하둡에서 카운터와 아주 흡사 예를 들면 비정상적인 값을 갖는 레코드의 수를 세는데 사용 Accumulators의 특징 변경 가능한 전역변수로 드라이버에 위치 스칼라로 만들면 이름을 줄 수 있지만 그 ..

SparkML 2024.02.05

기타기능 Intro와 Broadcast Variable

Spark 고급과 Spark ML Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자 Contents 1. Spark 기타 기능과 메모리 관리 2. Spark Shuffling 최적화 3. Spark Partition 학습 4. Spark ML 소개와 ML 모델 빌딩 5. ML Pipeline과 Tuning 소개와 실습 기타 기능/개념 살펴보기 자주 필요하지는 않지만 알아두면 좋은 기능들을 살펴보자 살펴볼 기능과 개념 Broadcast Variable Accumulators Speculative Execution Scheduler Dynamic Resource Allocation Broadcast Variable이란 무엇인가? 룩업 테이블등을 브로드캐스팅하여 셔플링을 막는 방식으로 사..

SparkML 2024.02.05

머신러닝 E2E

End-to-End 머신러닝 프로젝트¶ 부동산 회사에 막 고용된 데이터 과학자라고 가정하고 예제 프로젝트를 처음부터 끝까지 (End-to-Enf) 진행하겠습니다. 주요 단계는 다음과 같습니다 큰 그림을 봅니다 (look at the big picture). 데이터를 구합니다 (get the data). 데이터로부터 통찰을 얻기 위해 탐색하고 시각화합니다 (discover and visualize the data to gain insights). 머신러닝 알고리즘을 위해 데이터를 준비합니다 (prepare the data for Machine Learning algorithms). 모델을 선택하고 훈련시킵니다 (select a model and train it). 모델을 상세하게 조정합니다 (fine-tu..

머신러닝 기초 2024.01.29

마무리와 숙제

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 강의 마무리 이번 강의를 요약해보자 스트리밍 데이터 처리 배치 처리 vs. 실시간 (스트리밍) 처리 Kafka: ○ 대량의 실시간 데이터를 저장/처리하는 분산 스트리밍 플랫폼 ○ Topic => Partition => Segment ○ Event/Message: Key, Value, Timestamp, Headers ○ Producers, B..

Kafka Stream 예제 프로그램

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Kafka Stream 예제 프로그램 Structured Streaming으로 Kafka 토픽을 처리해보자 이번에는 Input을 Kafka Topic으로 받아 처리하는 실습을 진행하겠습니다. Kafka와 Spark Streaming 다이어그램 Spark Structured Streaming을 보통 사용함 fake_people에서 읽어들이는 K..