터칭 데이터 2024. 1. 15. 22:47

 

 

요약

 

빅데이터의 처리를 위해 하둡이라는 오픈소스가 등장

분산 파일 시스템과 분산 컴퓨팅 시스템으로 구성

    - HDFS와 맵리듀스/YARN

맵리듀스 프로그래밍의 제약성으로 인해 SQL이 재등장

 

Spark은 대세 대용량 데이터 분산 컴퓨팅 기술

Pandas + Scikit Learn의 스테로이드 버전
SQL과 스트림 데이터와 그래프 처리도 제공