목록분류 전체보기 (370)
터칭 데이터
Spark 고급과 Spark ML Shuffling시 Skew 처리방식과 Spark ML에 대해 배워보자 Contents 1. Spark 기타 기능과 메모리 관리 2. Spark Shuffling 최적화 3. Spark Partition 학습 4. Spark ML 소개와 ML 모델 빌딩 5. ML Pipeline과 Tuning 소개와 실습
머신러닝 E2E
End-to-End 머신러닝 프로젝트¶ 부동산 회사에 막 고용된 데이터 과학자라고 가정하고 예제 프로젝트를 처음부터 끝까지 (End-to-Enf) 진행하겠습니다. 주요 단계는 다음과 같습니다 큰 그림을 봅니다 (look at the big picture). 데이터를 구합니다 (get the data). 데이터로부터 통찰을 얻기 위해 탐색하고 시각화합니다 (discover and visualize the data to gain insights). 머신러닝 알고리즘을 위해 데이터를 준비합니다 (prepare the data for Machine Learning algorithms). 모델을 선택하고 훈련시킵니다 (select a model and train it). 모델을 상세하게 조정합니다 (fine-tu..
Absolutely, Apache Kafka does have many components. Here's a brief overview of how they all relate to each other: Producer: Producers are the source of data in Kafka. They send records to topics. Consumer: Consumers read from topics and process the records. Topic: A Topic is a category or feed name to which records are published. Topics are split into one or more partitions. Partition: Partition..
Spark Streaming 소개 Spark 환경설정 Streaming WordCount 예제 프로그램 Kafka Stream 예제 프로그램 마무리와 숙제
5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 강의 마무리 이번 강의를 요약해보자 스트리밍 데이터 처리 배치 처리 vs. 실시간 (스트리밍) 처리 Kafka: ○ 대량의 실시간 데이터를 저장/처리하는 분산 스트리밍 플랫폼 ○ Topic => Partition => Segment ○ Event/Message: Key, Value, Timestamp, Headers ○ Producers, B..

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Kafka Stream 예제 프로그램 Structured Streaming으로 Kafka 토픽을 처리해보자 이번에는 Input을 Kafka Topic으로 받아 처리하는 실습을 진행하겠습니다. Kafka와 Spark Streaming 다이어그램 Spark Structured Streaming을 보통 사용함 fake_people에서 읽어들이는 K..

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Streaming WordCount 예제 프로그램 Structured Streaming으로 단어를 세는 프로그램을 만들어보자 WordCount 예제 Spark에서 제공해주는 예제 프로그램 ○ TCP 소켓에서 수신 대기 중인 데이터 서버로부터 수신한 텍스트 데이터의 단어 수를 세고 싶다고 가정 이를 위해 Netcat을 데이터 Producer로 ..

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Spark 환경 설정 Spark Streaming 개발 환경을 설정하자 Local Standalone Spark 소개 Spark Cluster Manager로 local[n] 지정 ● master를 local[n]으로 지정 ● master는 클러스터 매니저를 지정하는데 사용 주로 개발이나 간단한 테스트 용도 하나의 JVM에서 모든 프로세스를 ..

5. Spark Streaming 소개와 Kafka 연동 Spark Structured Streaming에 대해 알아보고 Kafka Topic을 사용하는 방법을 배워보자 Contents 1. Spark Streaming 소개 2. Spark 환경 설정 3. Streaming WordCount 예제 프로그램 4. Kafka Stream 예제 프로그램 5. 강의 마무리 Spark Streaming 소개 Spark Streaming이 무엇인지 알아보자 Spark의 등장 버클리 대학의 AMPLab에서 아파치 오픈소스 프로젝트로 2013년 시작 ● 나중에 Databricks라는 스타트업 창업 하둡의 뒤를 잇는 2세대 빅데이터 기술 ● YARN등을 분산환경으로 사용 ● Scala로 작성됨 빅데이터 처리 관련 *다양..