터칭 데이터

데이터 플랫폼의 발전단계 본문

데이터 웨어하우스(Data Warehouse)

데이터 플랫폼의 발전단계

터칭 데이터 2023. 11. 27. 19:23

 

데이터 플랫폼의 발전단계

 

초기 단계: 데이터 웨어하우스 + ETL

 

발전 단계: 데이터 양 증가

Spark과 같은 빅데이터 처리시스템 도입

데이터 레이크 도입

 

성숙 단계: 데이터 활용 증대

현업단의 데이터 활용이 가속화

ETL단이 더 중요해지면서 dbt 등의 analytics engineering 도입

MLOps 등 머신러닝 관련 효율성 증대 노력 증대

 

 

 

 

 

 

 

 

 

◆ 발전 단계: 데이터 양 증가

 

❖ Spark과 같은 빅데이터 처리시스템 도입

 

❖ 데이터 레이크 도입: 보통 로그 데이터와 같은 대용량 비구조화 데이터 대상

데이터 소스 -> 데이터 파이프라인 -> 데이터 웨어하우스

 

데이터 소스 -> 데이터 파이프라인 -> 데이터 레이크


데이터 레이크 -> 데이터 파이프라인 -> 데이터 웨어하우스
▪ 이때 Spark/Hadoop 등이 사용됨
▪ Hadoop: Hive/Presto등이 기반됨

 

데이터의 양이 커지기 때문에 데이터 레이크와 같은 더 큰 스토리지가 필요해지고 이런 막대한 데이터를 프로세싱하기 위해서는 대용량 분산처리 시스템인 Spark, Hive/Presto가 필요해지는 것을 꼭 기억해두자

 

 

 

 

 

 

 

 

 

◆ 성숙 단계: 현업단의 데이터 활용 가속화

 

❖ ELT단이 더 중요해지면서 dbt 등의 analytics engineering 도입

데이터 레이크 to 데이터 레이크, 데이터 레이크 to 데이터 웨어하우스, 데이터 웨어하우스 to 데이터 웨어하우스

 

❖ MLOps 등 머신러닝 개발 운영 관련 효율성 증대 노력 증대