하둡과 Spark
요약
터칭 데이터
2024. 1. 15. 22:47
요약
빅데이터의 처리를 위해 하둡이라는 오픈소스가 등장
분산 파일 시스템과 분산 컴퓨팅 시스템으로 구성
- HDFS와 맵리듀스/YARN
맵리듀스 프로그래밍의 제약성으로 인해 SQL이 재등장
Spark은 대세 대용량 데이터 분산 컴퓨팅 기술
Pandas + Scikit Learn의 스테로이드 버전
SQL과 스트림 데이터와 그래프 처리도 제공