터칭 데이터

구글이 데이터 분야에 끼친 영향 (2) 본문

카테고리 없음

구글이 데이터 분야에 끼친 영향 (2)

터칭 데이터 2024. 1. 22. 16:50

 

 

Contents


1. 실시간 데이터 처리 소개
2. Udemy 데이터 시스템 발전 여정 소개
3. Kafka 소개
4. Kafka 기본 프로그래밍
5. Spark Streaming 소개
6. Spark Streaming + Kafka 프로그래밍
7. 마무리

 

 

Contents


1. 구글이 데이터 분야에 끼친 영향
2. 데이터 처리의 발전 단계
3. 실시간 데이터 종류와 사용 사례
4. 실시간 데이터 처리 챌린지

 

 

 

 

 

 

 

구글이 데이터 분야에 끼친 영향


구글이 데이터 분야에 끼친 영향은 하둡등을 통한 배치 프로세싱부터 시작해서 텐서플로우, K8s 등등 이루말할 수 없다

 

 

 

 

 

 

 

기술적 진보와 공유 => 빅데이터 시대의 도래 (1)

 

검색엔진은 기본적으로 대량의 데이터를 처리하게 됨

 

수백 조개의 웹페이지를 크롤하고 거기서 나온 텍스트로부터 색인 추출

 

웹페이지 그래프를 기반으로 페이지랭크 계산

 

검색시 대용량 인덱스를 뒤져서 최적의 결과를 찾아내야함

 

다양한 언어 지원이 필요

 

사용자 검색어와 클릭로그를 기반으로 한 각종 마이닝

동의어 찾기
통계기반 번역 (statistical translation)
검색입력 자동 완성(auto-completion)

 

 

 

 

 

 

 

 

 

 

 

 

기술적 진보와 공유 => 빅데이터 시대의 도래 (2)

 

구글 랩에서 두 개의 기념비적인 논문을 발표

2003년 The Google File System
2004년 MapReduce: Simplified Data Processing on Large Cluster

 

이를 바탕으로 하둡이라는 오픈소스 프로젝트가 시작됨

이 기술이 빅데이터 처리를 가능하게 해줌
또한 하둡을 시작으로 오픈소스 활동이 한층 더 활발해짐
이런 기반 기술들이 머신러닝, 인공지능의 발전을 가속화함

 

 

 

 

 

 

 

 

 

 

검색 기술과 검색 마케팅의 결합 - 구글 애드워즈

 

구글은 오버추어가 시작한 웹 검색 광고를 발전시켜 구글 애드워즈(AdWords) 라고 명명

지금은 이를 구글 애즈(Ads)라고 부름
사실은 오버추어의 기술을 무단 복사
    - 오버추어가 2002년에 소송을 걸었고 2004년 야후(오버추어)의 승리로 마무리됨
    - 구글이 2백70만개의 주식을 야후로 주는 것으로 정리됨

 

구글과 오버추어의 검색 마케팅 방법의 차이점은?

오버추어가 처음 시작했지만 검색어 경매 방식에 사람이 끼어들어야만 했기에 비효율적이었음
    - 시간이 오래 걸리고 검색어 광고의 성능을 염두에 두지 못함
구글은 처음부터 웹기반 자동화를 염두에 두고 만들어 사람의 개입 없이 검색어 경매와 광고 시스템을 구축
    - 검색어 광고의 성능에 따라 노출 빈도도 결정됨

 

 

 

 

 

 

 

 

 

 

 

만일 야후가 구글을 인수했다면?

 

구글 창업자들이 1998년 $1M에 야후에 팔려고 시도: 야후가 거절

 

2002년 $5B에 다시 팔려고 시도: 야후가 또 거절

 

야후는 그 뒤는 다수의 검색엔진 회사 인수를 통해 구글과 경쟁 시도

2003년 오버추어가 알타비스타를 $80M에 인수
2003년 오버추어가 AllTheWeb을 $70M에 인수
2003년 야후가 잉크토미를 $235M에 인수
2003년 야후가 오버추어를 $1.63B에 인수
2009년 마이크로소프트가 야후 검색 비지니스 인수
2016년 야후가 버라이즌에 $4.83B에 팔림

 

만일 야후가 구글을 인수했다면 뒤에서 이야기할 기술발전들은 한참뒤로 미뤄졌을 것

 

 

 

 

 

 

 

 

 

검색엔진 관련 논문 발표 이후 구글의 행보

 

AlphaGo:

2016년 3월 이세돌에 4대1로 승리

 

TensorFlow:

"TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems" (2016)
Paper link: TensorFlow Paper, Open-source project: TensorFlow GitHub

 

Kubernetes:

"Kubernetes: Up and Running" (2017)
Paper link: Kubernetes Paper, Open-source project: Kubernetes GitHub

 

Transformer Architecture

“Attention is All You Need” (2017)
Paper link: Attention is All You Need

 

BERT:

"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" (2018)
Paper link: BERT Paper