Notice
Recent Posts
Recent Comments
Link
터칭 데이터
빅데이터 처리가 갖는 특징 본문
빅데이터 처리의 특징은?
스토리지, 병렬처리, 비구조화 데이터 처리 기능이 필요합니다.
먼저 큰 데이터를 손실없이 보관할 방법이 필요: 스토리지
처리 시간이 오래 걸림: 병렬처리
이런 데이터들은 비구조화된 데이터일 가능성이 높음: SQL만으로는 부족
예를 들면 웹 로그 파일
66.249.65.107 - - [08/Oct/2007:04:54:20 -0400] "GET /support.html HTTP/1.1" 200 11179 "-" "Mozilla/5.0
(compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
111.111.111.111 - - [08/Oct/2007:11:17:55 -0400] "GET / HTTP/1.1" 200 10801
"http://www.google.com/search?q=log+analyzer&ie=utf-8&oe=utf-8
&aq=t&rls=org.mozilla:en-US:official&client=firefox-a" "Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US;
rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7"
111.111.111.111 - - [08/Oct/2007:11:17:55 -0400] "GET /style.css HTTP/1.1" 200 3225
"http://www.loganalyzer.net/" "Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914
Firefox/2.0.0.7"
파싱이 되어있지 않아 쿼리문을 바로 사용하기 곤란합니다. 만일 오디오나 비디오 파일이라면 다루기 더 힘들겠죠?
해결 방안은?
큰 데이터를 손실없이 보관할 방법이 필요
큰 데이터 저장이 가능한 분산 파일 시스템이 필요
시간이 오래 걸림
병렬 처리가 가능한 분산 컴퓨팅 시스템이 필요
이런 데이터들은 비구조화된 데이터일 가능성이 높음
비구조화 데이터를 처리할 방법이 필요
결국 다수의 컴퓨터로 구성된 프레임웍이 필요
대용량 분산 시스템이란?
분산 환경 기반 (1대 혹은 그 이상의 서버로 구성)
분산 파일 시스템과 분산 컴퓨팅 시스템이 필요
Fault Tolerance
소수의 서버가 고장나도 동작해야함
확장이 용이해야함
Scale Out이 되어야함
기본적으로는 Scale Up보다는 Scale Out이 권장되기 때문입니다.
'하둡과 Spark' 카테고리의 다른 글
맵리듀스 프로그래밍 소개 (0) | 2024.01.15 |
---|---|
YARN의 동작방식 (0) | 2024.01.15 |
하둡의 등장과 소개 (0) | 2024.01.15 |
빅데이터의 정의와 예 (0) | 2024.01.15 |
Intro (0) | 2024.01.15 |