터칭 데이터

마무리와 숙제 본문

Kafka와 Spark Streaming

마무리와 숙제

터칭 데이터 2024. 1. 26. 02:22

 

 

5. Spark Streaming 소개와 Kafka 연동


Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자

 

 

 

 

 

 

Contents

1. Spark Streaming 소개
2. Spark 환경 설정
3. Streaming WordCount 예제 프로그램
4. Kafka Stream 예제 프로그램
5. 강의 마무리

 

 

 

 

 

강의 마무리

 

이번 강의를 요약해보자

 

 

 

 

 

 

스트리밍 데이터 처리

 

배치 처리 vs. 실시간 (스트리밍) 처리

 

Kafka:

○ 대량의 실시간 데이터를 저장/처리하는 분산 스트리밍 플랫폼
○ Topic => Partition => Segment
○ Event/Message: Key, Value, Timestamp, Headers
○ Producers, Brokers (Controller), Consumers
○ Schema Registry, Connect, REST Proxy, ksqlDB, Kafka Streams, …

 

Spark Streaming

○ Micro-batch 형태로 데이터를 실시간 처리해주는 Spark 확장 모듈
○ Kafka의 토픽에서 데이터를 읽어들여서 데이터 변환, 집계, 필터링 등의 작업 수행 가능
○ 이제는 DStream이 아닌 Structured Streaming을 사용하는 것이 일반적

 

Project Ideas:

○ 실시간 데이터를 연습해볼만한 사이트

○ https://www.alphavantage.co/documentation/

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5일차 숙제

 

아래 부분을 Spark SQL을 사용하게 변경해보기

 

 

(생략..)
	# TRANSFORM
    words_df = lines_df.select(expr("explode(split(value,' ')) as word"))
    counts_df = words_df.groupBy("word").count()
(생략..)

 

  # TRANSFORM
  words_df = lines_df.select(expr("explode(split(value,' ')) as word"))
  counts_df = words_df.groupBy("word").count()

 

 

 

 

 

 
 

'Kafka와 Spark Streaming' 카테고리의 다른 글

Kafka 기본 개념 정리  (0) 2024.01.26
Kafka Stream 예제 프로그램  (0) 2024.01.26
Streaming WordCount 예제 프로그램  (0) 2024.01.26
Spark 환경설정  (0) 2024.01.26
Spark Streaming 소개  (0) 2024.01.26