목록Kafka와 Spark Streaming (24)
터칭 데이터
Absolutely, Apache Kafka does have many components. Here's a brief overview of how they all relate to each other: Producer: Producers are the source of data in Kafka. They send records to topics. Consumer: Consumers read from topics and process the records. Topic: A Topic is a category or feed name to which records are published. Topics are split into one or more partitions. Partition: Partition..
5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 강의 마무리 이번 강의를 요약해보자 스트리밍 데이터 처리 배치 처리 vs. 실시간 (스트리밍) 처리 Kafka: ○ 대량의 실시간 데이터를 저장/처리하는 분산 스트리밍 플랫폼 ○ Topic => Partition => Segment ○ Event/Message: Key, Value, Timestamp, Headers ○ Producers, B..

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Kafka Stream 예제 프로그램 Structured Streaming으로 Kafka 토픽을 처리해보자 이번에는 Input을 Kafka Topic으로 받아 처리하는 실습을 진행하겠습니다. Kafka와 Spark Streaming 다이어그램 Spark Structured Streaming을 보통 사용함 fake_people에서 읽어들이는 K..

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Streaming WordCount 예제 프로그램 Structured Streaming으로 단어를 세는 프로그램을 만들어보자 WordCount 예제 Spark에서 제공해주는 예제 프로그램 ○ TCP 소켓에서 수신 대기 중인 데이터 서버로부터 수신한 텍스트 데이터의 단어 수를 세고 싶다고 가정 이를 위해 Netcat을 데이터 Producer로 ..

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Spark 환경 설정 Spark Streaming 개발 환경을 설정하자 Local Standalone Spark 소개 Spark Cluster Manager로 local[n] 지정 ● master를 local[n]으로 지정 ● master는 클러스터 매니저를 지정하는데 사용 주로 개발이나 간단한 테스트 용도 하나의 JVM에서 모든 프로세스를 ..

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Spark Streaming 소개 Spark Streaming이 무엇인지 알아보자 Spark의 등장 버클리 대학의 AMPLab에서 아파치 오픈소스 프로젝트로 2013년 시작 ● 나중에 Databricks라는 스타트업 창업 하둡의 뒤를 잇는 2세대 빅데이터 기술 ● YARN등을 분산환경으로 사용 ● Scala로 작성됨 빅데이터 처리 관련 *다양..

4. Kafka 기본 프로그래밍 Kafka로 데이터를 생성하고 소비하는 코드를 작성해보자 Contents 1. Client tool 사용 2. Topic 파라미터 설정 3. Consumer 옵션 살펴보기 4. ksqlDB 사용해보기 5. 숙제 숙제 이번 챕터에서 숙제에 대해 이야기해보자 숙제 두 개 1. 오늘 내용들을 다 따라해보고 Conducktor Web UI에서 Consumer Group 메뉴 화면 캡쳐해서 보내기. 아래와 비슷한 내용이 보여야함 2. fake_people_producer.py의 코드를 변경해서 전송되는 메세지들의 내용을 적당히 출력하게 바꿔보고 역시 실행 화면을 캡쳐해서 보내기

4. Kafka 기본 프로그래밍 Kafka로 데이터를 생성하고 소비하는 코드를 작성해보자 Contents 1. Client tool 사용 2. Topic 파라미터 설정 3. Consumer 옵션 살펴보기 4. ksqlDB 사용해보기 5. 숙제 ksqlDB 사용해보기 Topic 데이터를 SQL을 사용해서 접근해보자 ksqlDB REST API나 ksql 클라이언트 툴을 사용해서 Topic을 테이블처럼 SQL로 조작 방법 1) REST API를 ksql DB 서버에 보내 ksql DB가 연결된 Kafka Cluster의 Topic들을 SQL DB의 테이블이나 뷰처럼 처리 방법 2) ksql이라는 커맨드라인 유틸리티를 사용해 동일한 일을 수행 가능 (시간 관계상 이것만 실습) 여기서는 ksql을 사용하는 간단..

4. Kafka 기본 프로그래밍 Kafka로 데이터를 생성하고 소비하는 코드를 작성해보자 Contents 1. Client tool 사용 2. Topic 파라미터 설정 3. Consumer 옵션 살펴보기 4. ksqlDB 사용해보기 5. 숙제 Consumer 옵션 살펴보기 Consumer와 관계된 옵션들을 살펴보면서 Consumer Group에 대해서도 알아보자 KafkaConsumer 파라미터 Topic 이름을 KafkaConsumer의 첫 번째 인자로 지정 혹은 나중에 별도로 subscribe를 호출해서 지정 지난 시간 사용했던 consumer.py에서는 Topic인 'topic_test'를 첫번째 인자로 지정했지만 이번의 실습에서는 KafkaConsumer를 별도로 만들고 subscribe 메서드를..

4. Kafka 기본 프로그래밍 Kafka로 데이터를 생성하고 소비하는 코드를 작성해보자 Contents 1. Client tool 사용 2. Topic 파라미터 설정 3. Consumer 옵션 살펴보기 4. ksqlDB 사용해보기 5. 숙제 Topic 파라미터 설정 Topic과 관계된 파라미터들을 KafkaProducer를 통해 설정해보자 Topic 생성시 다수의 Partition이나 Replica를 주려면 Topic을 별도로 생성하지 않고 바로 메시지를 보낼 때, 만일 없는 Topic의 이름을 사용한다면 Kafka가 Scale이 안되고 Partition하나에 Replica하나라는 우리가 바라지 않는 형태로 Topic을 만들게 됩니다. 그래서 이를 막기 위해 Topic을 미리 만들고 우리가 원하는 설정..