전체 글 373

실시간 데이터 종류와 사용 사례

Contents 1. 실시간 데이터 처리 소개 2. Udemy 데이터 시스템 발전 여정 소개 3. Kafka 소개 4. Kafka 기본 프로그래밍 5. Spark Streaming 소개 6. Spark Streaming + Kafka 프로그래밍 7. 마무리 Contents 1. 구글이 데이터 분야에 끼친 영향 2. 데이터 처리의 발전 단계 3. 실시간 데이터 종류와 사용 사례 4. 실시간 데이터 처리 챌린지 실시간 데이터 종류와 사용 사례 실시간으로 발생하는 데이터로 어떤 것들이 있는지 알아보자 Events are everywhere - Online Service 온갖 종류의 Funnel Data Product Impressions, Clicks (Click Stream), Purchase, … User..

빅데이터처리의 발전단계 (2)

Contents 1. 실시간 데이터 처리 소개 2. Udemy 데이터 시스템 발전 여정 소개 3. Kafka 소개 4. Kafka 기본 프로그래밍 5. Spark Streaming 소개 6. Spark Streaming + Kafka 프로그래밍 7. 마무리 Contents 1. 구글이 데이터 분야에 끼친 영향 2. 데이터 처리의 발전 단계 3. 실시간 데이터 종류와 사용 사례 4. 실시간 데이터 처리 챌린지 데이터 처리의 발전 단계 빅데이터 처리가 배치 중심에서 어떻게 실시간으로 발전했는지 살펴보자 배치 처리 주기적으로 데이터를 한 곳에서 다른 곳으로 이동하거나 처리 여기서의 주기는 보통 daily나 hourly 더 짧다면 분 단위입니다. 다만 5분 이하의 경우라면 Airflow로도 버거워지기 시작합니다..

빅데이터처리의 발전단계 (1)

Contents 1. 실시간 데이터 처리 소개 2. Udemy 데이터 시스템 발전 여정 소개 3. Kafka 소개 4. Kafka 기본 프로그래밍 5. Spark Streaming 소개 6. Spark Streaming + Kafka 프로그래밍 7. 마무리 Contents 1. 구글이 데이터 분야에 끼친 영향 2. 데이터 처리의 발전 단계 3. 실시간 데이터 종류와 사용 사례 4. 실시간 데이터 처리 챌린지 데이터 처리의 발전 단계 빅데이터 처리가 배치 중심에서 어떻게 실시간으로 발전했는지 살펴보자 데이터 처리의 일반적인 단계 데이터 수집 (Data Collection) 데이터 저장 (Data Storage) 데이터 처리 (Data Processing) 이 과정에서 서비스 효율을 높이거나 의사결정을 더 ..

구글이 데이터 분야에 끼친 영향 (2)

Contents 1. 실시간 데이터 처리 소개 2. Udemy 데이터 시스템 발전 여정 소개 3. Kafka 소개 4. Kafka 기본 프로그래밍 5. Spark Streaming 소개 6. Spark Streaming + Kafka 프로그래밍 7. 마무리 Contents 1. 구글이 데이터 분야에 끼친 영향 2. 데이터 처리의 발전 단계 3. 실시간 데이터 종류와 사용 사례 4. 실시간 데이터 처리 챌린지 구글이 데이터 분야에 끼친 영향 구글이 데이터 분야에 끼친 영향은 하둡등을 통한 배치 프로세싱부터 시작해서 텐서플로우, K8s 등등 이루말할 수 없다 기술적 진보와 공유 => 빅데이터 시대의 도래 (1) 검색엔진은 기본적으로 대량의 데이터를 처리하게 됨 수백 조개의 웹페이지를 크롤하고 거기서 나온 텍..

카테고리 없음 2024.01.22

구글이 데이터 분야에 끼친 영향 (1)

Contents 1. 실시간 데이터 처리 소개 2. Udemy 데이터 시스템 발전 여정 소개 3. Kafka 소개 4. Kafka 기본 프로그래밍 5. Spark Streaming 소개 6. Spark Streaming + Kafka 프로그래밍 7. 마무리 Contents 1. 구글이 데이터 분야에 끼친 영향 2. 데이터 처리의 발전 단계 3. 실시간 데이터 종류와 사용 사례 4. 실시간 데이터 처리 챌린지 구글이 데이터 분야에 끼친 영향 구글이 데이터 분야에 끼친 영향은 하둡등을 통한 배치 프로세싱부터 시작해서 텐서플로우, K8s 등등 이루말할 수 없다 구글 검색 엔진의 등장 (1) 1995년 스탠포드 대학에서 박사과정으로 있던 래리 페이지와 세르게이 브린이 1998년에 발표한 웹 검색 서비스 그 전까..

Spark EMR 데모 마무리

Contents 1. AWS Spark 클러스터 론치 2. AWS Spark 클러스터 상에서 PySpark 잡 실행 AWS Spark 클러스터 상에서 PySpark 잡 실행 AWS Spark 클러스터 상에서 PySpark 잡을 실행해보자 PySpark 잡 실행 과정 Spark 마스터노드에 SSH로 로그인 이를 위해 마스터노드의 TCP 포트번호 22번을 오픈해야함 spark-submit을 이용해서 실행하면서 디버깅 두 개의 잡을 AWS EMR 상에서 실행해 볼 예정 입력 데이터를 S3로 로딩 Stackoverflow 2022년 개발자 서베이 CSV 파일을 S3 버킷으로 업로드 익명화된 83,339개의 서베이 응답 s3://spark-tutorial-dataset/survey_results_public.cs..

하둡과 Spark 2024.01.22

Spark EMR 론치

Contents 1. AWS Spark 클러스터 론치 2. AWS Spark 클러스터 상에서 PySpark 잡 실행 AWS Spark 클러스터 론치 AWS EMR을 통해 Spark 클러스터를 론치해보자 AWS에서 Spark을 실행하려면 EMR (Elastic MapReduce) 위에서 실행하는 것이 일반적 EMR이란? ● AWS의 Hadoop 서비스 (On-demand Hadoop) ▪ Hadoop (YARN), Spark, Hive, Notebook 등등이 설치되어 제공되는 서비스 ● EC2 서버들을 worker node로 사용하고 S3를 HDFS로 사용 ● AWS 내의 다른 서비스들과 연동이 쉬움 (Kinesis, DynamoDB, Redshift, …) Spark on EMR 실행 및 사용 과정 A..

하둡과 Spark 2024.01.22