터칭 데이터

요약 본문

하둡과 Spark

요약

터칭 데이터 2024. 1. 15. 22:47

 

 

요약

 

빅데이터의 처리를 위해 하둡이라는 오픈소스가 등장

분산 파일 시스템과 분산 컴퓨팅 시스템으로 구성

    - HDFS와 맵리듀스/YARN

맵리듀스 프로그래밍의 제약성으로 인해 SQL이 재등장

 

Spark은 대세 대용량 데이터 분산 컴퓨팅 기술

Pandas + Scikit Learn의 스테로이드 버전
SQL과 스트림 데이터와 그래프 처리도 제공

 

 

 

 

 

 

'하둡과 Spark' 카테고리의 다른 글

Spark 데이터 처리  (0) 2024.01.16
Intro  (0) 2024.01.16
Spark 프로그램 실행 옵션  (0) 2024.01.15
Spark 소개  (0) 2024.01.15
맵리듀스 프로그래밍 실행  (0) 2024.01.15