Notice
Recent Posts
Recent Comments
Link
터칭 데이터
빅데이터의 정의와 예 본문
빅데이터의 정의와 예
빅데이터란 무엇이며 어떤 예들이 있는가?
빅데이터의 정의 1
“서버 한대로 처리할 수 없는 규모의 데이터”
2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data
scientist인 존 라우저(John Rauser)가 내린 정의 분산 환경이 필요하느냐에 포커스
판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가?
빅데이터의 정의 2
“기존의 소프트웨어로는 처리할 수 없는 규모의 데이터”
대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스
분산환경을 염두에 두지 않음
Scale-up 접근방식 (vs. Scale-out)
- 메모리 추가, CPU 추가, 디스크 추가
빅데이터의 정의 3
4V (Volume, Velocity, Variety, Varecity)
Volume: 데이터의 크기가 대용량?
Velocity: 데이터의 처리 속도가 중요?
Variety: 구조화/비구조화 데이터 둘다?
Veracity: 데이터의 품질이 좋은지?
빅데이터 예 - 디바이스 데이터
모바일 디바이스
위치정보
스마트 TV
각종 센서 데이터 (IoT 센서)
네트워킹 디바이스
…
빅데이터 예 - 웹
수십 조개 이상의 웹 페이지 존재 -> 온갖 종류의 지식의 바다
웹 검색엔진 개발은 진정한 대용량 데이터 처리
웹 페이지를 크롤하여 중요한 페이지를 찾아내고 (페이지 랭크) 인덱싱하고 서빙
구글이 빅데이터 기술의 발전에 지대한 공헌
사용자 검색어와 클릭 정보 자체도 대용량
이를 마이닝하여 개인화 혹은 별도 서비스 개발이 가능
- 검색어를 바탕으로한 트렌드 파악, 통계 기반 번역, …
요즘은 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용되고 있음
'하둡과 Spark' 카테고리의 다른 글
맵리듀스 프로그래밍 소개 (0) | 2024.01.15 |
---|---|
YARN의 동작방식 (0) | 2024.01.15 |
하둡의 등장과 소개 (0) | 2024.01.15 |
빅데이터 처리가 갖는 특징 (0) | 2024.01.15 |
Intro (0) | 2024.01.15 |