빅데이터의 정의와 예

하둡과 Spark

빅데이터의 정의와 예

터칭 데이터 2024. 1. 15. 12:56

빅데이터의 정의와 예

빅데이터란 무엇이며 어떤 예들이 있는가?

빅데이터의 정의 1

“서버 한대로 처리할 수 없는 규모의 데이터”

2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data

scientist인 존 라우저(John Rauser)가 내린 정의 분산 환경이 필요하느냐에 포커스

판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가?

빅데이터의 정의 2

“기존의 소프트웨어로는 처리할 수 없는 규모의 데이터”

대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스

분산환경을 염두에 두지 않음

Scale-up 접근방식 (vs. Scale-out)

- 메모리 추가, CPU 추가, 디스크 추가

빅데이터의 정의 3

4V (Volume, Velocity, Variety, Varecity)

Volume: 데이터의 크기가 대용량?

Velocity: 데이터의 처리 속도가 중요?

Variety: 구조화/비구조화 데이터 둘다?

Veracity: 데이터의 품질이 좋은지?

빅데이터 예 - 디바이스 데이터

모바일 디바이스

위치정보

스마트 TV

각종 센서 데이터 (IoT 센서)

네트워킹 디바이스

…

빅데이터 예 - 웹

수십 조개 이상의 웹 페이지 존재 -> 온갖 종류의 지식의 바다

웹 검색엔진 개발은 진정한 대용량 데이터 처리

웹 페이지를 크롤하여 중요한 페이지를 찾아내고 (페이지 랭크) 인덱싱하고 서빙
구글이 빅데이터 기술의 발전에 지대한 공헌

사용자 검색어와 클릭 정보 자체도 대용량

이를 마이닝하여 개인화 혹은 별도 서비스 개발이 가능
- 검색어를 바탕으로한 트렌드 파악, 통계 기반 번역, …

요즘은 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용되고 있음

'하둡과 Spark' 카테고리의 다른 글

맵리듀스 프로그래밍 소개 (0)	2024.01.15
YARN의 동작방식 (0)	2024.01.15
하둡의 등장과 소개 (0)	2024.01.15
빅데이터 처리가 갖는 특징 (0)	2024.01.15
Intro (0)	2024.01.15

현재글빅데이터의 정의와 예

터칭 데이터

챗지피티, 장고, funqa, 넥토리얼, Django, ChatGPT, 넥슨게임즈, 채용의나라, 이분탐색, URL 별칭, seaborn, Seabron, 가상환경, Templates, 재귀, 데이터 시각화, 연결 리스트, FQA, Fun QA, 워드클라우드,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

터칭 데이터

빅데이터의 정의와 예

빅데이터의 정의와 예

빅데이터의 정의 1

“서버 한대로 처리할 수 없는 규모의 데이터”

2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data

빅데이터의 정의 2

“기존의 소프트웨어로는 처리할 수 없는 규모의 데이터”

대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스

빅데이터의 정의 3

4V (Volume, Velocity, Variety, Varecity)

Volume: 데이터의 크기가 대용량?

Velocity: 데이터의 처리 속도가 중요?

Variety: 구조화/비구조화 데이터 둘다?

Veracity: 데이터의 품질이 좋은지?

빅데이터 예 - 디바이스 데이터

모바일 디바이스

스마트 TV

각종 센서 데이터 (IoT 센서)

네트워킹 디바이스

…

빅데이터 예 - 웹

수십 조개 이상의 웹 페이지 존재 -> 온갖 종류의 지식의 바다

웹 검색엔진 개발은 진정한 대용량 데이터 처리

사용자 검색어와 클릭 정보 자체도 대용량

요즘은 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용되고 있음

'하둡과 Spark' 카테고리의 다른 글

'하둡과 Spark'의 다른글

티스토리툴바

빅데이터의 정의와 예

빅데이터의 정의와 예

빅데이터의 정의 1

“서버 한대로 처리할 수 없는 규모의 데이터”

2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data

빅데이터의 정의 2

“기존의 소프트웨어로는 처리할 수 없는 규모의 데이터”

대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스

빅데이터의 정의 3

4V (Volume, Velocity, Variety, Varecity)

Volume: 데이터의 크기가 대용량?

Velocity: 데이터의 처리 속도가 중요?

Variety: 구조화/비구조화 데이터 둘다?

Veracity: 데이터의 품질이 좋은지?

빅데이터 예 - 디바이스 데이터

모바일 디바이스

스마트 TV

각종 센서 데이터 (IoT 센서)

네트워킹 디바이스

…

빅데이터 예 - 웹

수십 조개 이상의 웹 페이지 존재 -> 온갖 종류의 지식의 바다

웹 검색엔진 개발은 진정한 대용량 데이터 처리

사용자 검색어와 클릭 정보 자체도 대용량

요즘은 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용되고 있음

'하둡과 Spark' 카테고리의 다른 글

'하둡과 Spark'의 다른글

관련글

티스토리툴바