터칭 데이터

Spark 환경설정 본문

Kafka와 Spark Streaming

Spark 환경설정

터칭 데이터 2024. 1. 26. 01:55

 

 

5. Spark Streaming 소개와 Kafka 연동


Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자

 

 

 

 

 

 

Contents

1. Spark Streaming 소개
2. Spark 환경 설정
3. Streaming WordCount 예제 프로그램
4. Kafka Stream 예제 프로그램
5. 강의 마무리

 

 

 

 

 

Spark 환경 설정

 

Spark Streaming 개발 환경을 설정하자

 

 

 

 

 

 

Local Standalone Spark 소개

 

Spark Cluster Manager로 local[n] 지정

● master를 local[n]으로 지정
● master는 클러스터 매니저를 지정하는데 사용

 

주로 개발이나 간단한 테스트 용도

 

하나의 JVM에서 모든 프로세스를 실행

● 하나의 Driver와 하나의 Executor가 실행됨
● 1+ 쓰레드가 Executor안에서 실행됨

 

Executor안에 생성되는 쓰레드 수

● local:하나의 쓰레드만 생성
● local[*]: 컴퓨터 CPU 수만큼 쓰레드를 생성

 

 

 

Spark 잡을 실행할 때 master를 local[3]으로 지정한 경우

 

 

 

 

 

 

 

 

 

 

 

 

 

Local Standalone Spark 설치

 

Mac이라면 Mac Catalina 혹은 이후 버전 기준

● Z쉘이 기본으로 사용됨 (그전에는 Bash 쉘)

 

자바 관련 설정

● JDK8/11이 필요: 터미널에서 java -version 명령으로 체크
● JAVA_HOME 환경변수를 Z쉘 시작 스크립트(~/.zshrc)에 등록
    ▪ echo export "JAVA_HOME=\$(/usr/libexec/java_home)" >> ~/.zshrc

 

Spark 다운로드

 

세부 설치 방법

● 맥: Github 문서 참고
● 윈도우: Github 문서 참고

 

 

 

spark-3.3.1이 Scala 2.12로 빌드되었다고 적힌 것을 꼭 기억해두세요. 나중에 필요합니다.

 

 

 

 

 

 

'Kafka와 Spark Streaming' 카테고리의 다른 글

Kafka Stream 예제 프로그램  (0) 2024.01.26
Streaming WordCount 예제 프로그램  (0) 2024.01.26
Spark Streaming 소개  (0) 2024.01.26
숙제  (0) 2024.01.25
ksqlDB 사용해보기  (0) 2024.01.25