목록데브코스 TIL (56)
터칭 데이터
Intro 기타기능 Intro와 Broadcast Variable Accumulators Speculative Execution Resource Dynamic Allocation Spark Scheduler Driver Executor Memory Driver Executor OOM JVM Python Cache & Presist
머신러닝 E2E
Spark Streaming 소개 Spark 환경설정 Streaming WordCount 예제 프로그램 Kafka Stream 예제 프로그램 마무리와 숙제
Kafka CLI Tools Topic 파라미터 설정 Consumer 옵션 살펴보기 ksqlDB 사용해보기 숙제
Kafka 역사와 소개 Kafka 아키텍처 Kafka 중요 개념 Kafka 기타 기능 살펴보기 Kafka 설치 Kafka Python 프로그래밍 기본과 숙제
Intro 1장 퀴즈 리뷰 Udemy 데이터팀 빌딩 여정 Udemy 추천엔진 발전 요약 Udemy 추천엔진 1기 Udemy 데이터 인프라 클라우드 이전 Udemy 추천엔진 2기 사용자가 유데미를 방문하면 무슨 일이 벌어질까 Udemy 이벤트 처리 시스템 2기
과정 소개 구글이 데이터 분야에 끼친 영향 (1) 구글이 데이터 분야에 끼친 영향 (2) 빅데이터처리의 발전단계 (1) 빅데이터처리의 발전단계 (2) 실시간 데이터 종류와 사용 사례 실시간 데이터 처리 챌린지
Intro 빅데이터의 정의와 예 빅데이터 처리가 갖는 특징 하둡의 등장과 소개 YARN의 동작방식 맵리듀스 프로그래밍 소개 하둡 설치 - 맵리듀스 프로그래밍 실행 맵리듀스 프로그래밍 실행 Spark 소개 Spark 프로그램 실행 옵션 요약

1. Google Trends는 공식적으로 API를 제공하지 않는다. 2. pytrends라는 비공식 API가 존재하지만 모듈 관리가 제대로 되지 않는 상황 (가혹한 TooManyRequestsError 등) 3. 최후의 방법으로 Google Trends에서 웹 스크래핑을 하려했으나 구글측에서 bs4는 물론 Selenium을 이용한 크롤링을 원천차단 4. Network에서 Google Trends의 API를 알아내 오늘 날짜의 현재 시각 키워드를 알아내는데는 성공 (팀원분께서 도와주셨다) 5. 위의 작업을 DAG로 작성하고 Airflow를 통해 PostgreSQL(Redshift)에 적재하는데 성공 Google_trends_data_extraction.py from airflow import DAG fr..