터칭 데이터

빅데이터의 정의와 예 본문

하둡과 Spark

빅데이터의 정의와 예

터칭 데이터 2024. 1. 15. 12:56

 

 

빅데이터의 정의와 예


빅데이터란 무엇이며 어떤 예들이 있는가?

 

 

 

 

 

 

 

 

 

 

 

빅데이터의 정의 1

 

“서버 한대로 처리할 수 없는 규모의 데이터”

 

2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data 

scientist인 존 라우저(John Rauser)가 내린 정의 분산 환경이 필요하느냐에 포커스

 

 

 

 

 

 

판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

빅데이터의 정의 2

 

“기존의 소프트웨어로는 처리할 수 없는 규모의 데이터”

 

대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스

분산환경을 염두에 두지 않음

Scale-up 접근방식 (vs. Scale-out)

    - 메모리 추가, CPU 추가, 디스크 추가

 

 

 

 

 

 

 

 

 

 

 

 

빅데이터의 정의 3

 

4V (Volume, Velocity, Variety, Varecity)

 

Volume: 데이터의 크기가 대용량?

 

Velocity: 데이터의 처리 속도가 중요?

 

Variety: 구조화/비구조화 데이터 둘다?

 

Veracity: 데이터의 품질이 좋은지?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

빅데이터 예 - 디바이스 데이터

 

모바일 디바이스

위치정보

 

스마트 TV

 

각종 센서 데이터 (IoT 센서)

 

네트워킹 디바이스

 

 

 

 

 

 

 

 

 

 

 

 

빅데이터 예 - 웹

 

수십 조개 이상의 웹 페이지 존재 -> 온갖 종류의 지식의 바다

 

웹 검색엔진 개발은 진정한 대용량 데이터 처리

웹 페이지를 크롤하여 중요한 페이지를 찾아내고 (페이지 랭크) 인덱싱하고 서빙
구글이 빅데이터 기술의 발전에 지대한 공헌

 

사용자 검색어와 클릭 정보 자체도 대용량

이를 마이닝하여 개인화 혹은 별도 서비스 개발이 가능
    - 검색어를 바탕으로한 트렌드 파악, 통계 기반 번역, …

 

요즘은 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용되고 있음

 

 

 

 

 

 

'하둡과 Spark' 카테고리의 다른 글

맵리듀스 프로그래밍 소개  (0) 2024.01.15
YARN의 동작방식  (0) 2024.01.15
하둡의 등장과 소개  (0) 2024.01.15
빅데이터 처리가 갖는 특징  (0) 2024.01.15
Intro  (0) 2024.01.15