터칭 데이터
구글이 데이터 분야에 끼친 영향 (1) 본문
Contents
1. 실시간 데이터 처리 소개
2. Udemy 데이터 시스템 발전 여정 소개
3. Kafka 소개
4. Kafka 기본 프로그래밍
5. Spark Streaming 소개
6. Spark Streaming + Kafka 프로그래밍
7. 마무리
Contents
1. 구글이 데이터 분야에 끼친 영향
2. 데이터 처리의 발전 단계
3. 실시간 데이터 종류와 사용 사례
4. 실시간 데이터 처리 챌린지
구글이 데이터 분야에 끼친 영향
구글이 데이터 분야에 끼친 영향은 하둡등을 통한 배치 프로세싱부터 시작해서 텐서플로우, K8s 등등 이루말할 수 없다
구글 검색 엔진의 등장 (1)
1995년 스탠포드 대학에서 박사과정으로 있던 래리 페이지와 세르게이 브린이 1998년에 발표한 웹 검색 서비스
그 전까지의 검색 엔진은 기본적으로 웹 페이지 상의 텍스트를 보고 랭킹을 결정
알타비스타, 야후, Ask Jeeves, …
검색 결과 페이지에 온갖 종류의 스팸 웹 페이지들이 넘쳐나기 시작
구글은 웹 페이지들간의 링크를 기반으로 중요한 페이지를 찾아서 검색 순위 결정
이 알고리즘을 래리 페이지의 이름을 따서 페이지 랭크라고 부름
페이지 랭크 논문 발표으로 차세대 검색엔진들이 나옴 (중국의 바이두, 러시아의 얀덱스 등등)
구글 검색 엔진의 등장
기존의 강자들을 넘어서 2004년부터 세계 최고의 검색엔진으로 등장
2004년 여름에 상장됨 ($23B)
2021년 2월 기준 $1.41T으로 급성장
- 검색 마케팅 플랫폼으로 확장 (Google Ads): 오버추어와 경쟁
- 안드로이드 개발로 모바일 생태계 지배
- Youtube 인수를 통한 스트리밍 시장 석권
다양한 논문 발표와 오픈소스 활동으로 개발자 커뮤니티에 큰 영향을 끼침
페이지 랭크 소개 (1)
The PageRank Citation Ranking: bringing order to the web (1998)
더 중요한 페이지는 더 많은 다른 사이트들로부터 링크를 받는다는 관찰에 기초
중요한 페이지가 링크를 건 페이지들 역시 상대적으로 중요한 페이지라는 관찰에 기초

페이지 랭크 소개 (2)
이를 기반으로 계산을 반복하면 웹상의 모든 페이지들에 중요도 점수를 부여할 수 있음
페이지 랭크의 계산은 대용량 컴퓨팅 인프라와 소프트웨어 없이는 불가능
나중에 구글 검색엔진 아키텍처를 논문으로 외부에 공개
"The Anatomy of a Large-Scale Hypertextual Web Search Engine" (1998)
웹 페이지 본문 텍스트가 아닌 링크 텍스트의 중요성 + 링크를 건 원문 페이지의 중요도 고려

검색엔진의 데이터 처리 - 주기적 검색 인덱스 빌딩

'Kafka와 Spark Streaming' 카테고리의 다른 글
실시간 데이터 처리 챌린지 (0) | 2024.01.22 |
---|---|
실시간 데이터 종류와 사용 사례 (0) | 2024.01.22 |
빅데이터처리의 발전단계 (2) (0) | 2024.01.22 |
빅데이터처리의 발전단계 (1) (0) | 2024.01.22 |
과정 소개 (0) | 2024.01.22 |