Notice
Recent Posts
Recent Comments
Link
터칭 데이터
데이터 플랫폼의 발전단계 본문
데이터 플랫폼의 발전단계
초기 단계: 데이터 웨어하우스 + ETL
발전 단계: 데이터 양 증가
Spark과 같은 빅데이터 처리시스템 도입
데이터 레이크 도입
성숙 단계: 데이터 활용 증대
현업단의 데이터 활용이 가속화
ETL단이 더 중요해지면서 dbt 등의 analytics engineering 도입
MLOps 등 머신러닝 관련 효율성 증대 노력 증대
◆ 발전 단계: 데이터 양 증가
❖ Spark과 같은 빅데이터 처리시스템 도입
❖ 데이터 레이크 도입: 보통 로그 데이터와 같은 대용량 비구조화 데이터 대상
데이터 소스 -> 데이터 파이프라인 -> 데이터 웨어하우스
데이터 소스 -> 데이터 파이프라인 -> 데이터 레이크
데이터 레이크 -> 데이터 파이프라인 -> 데이터 웨어하우스
▪ 이때 Spark/Hadoop 등이 사용됨
▪ Hadoop: Hive/Presto등이 기반됨
데이터의 양이 커지기 때문에 데이터 레이크와 같은 더 큰 스토리지가 필요해지고 이런 막대한 데이터를 프로세싱하기 위해서는 대용량 분산처리 시스템인 Spark, Hive/Presto가 필요해지는 것을 꼭 기억해두자
◆ 성숙 단계: 현업단의 데이터 활용 가속화
❖ ELT단이 더 중요해지면서 dbt 등의 analytics engineering 도입
데이터 레이크 to 데이터 레이크, 데이터 레이크 to 데이터 웨어하우스, 데이터 웨어하우스 to 데이터 웨어하우스
❖ MLOps 등 머신러닝 개발 운영 관련 효율성 증대 노력 증대
'데이터 웨어하우스(Data Warehouse)' 카테고리의 다른 글
Redshift Scaling, 분산 저장 방식 (0) | 2023.11.28 |
---|---|
Redshift의 특징과 개념 (0) | 2023.11.28 |
데이터 웨어하우스 옵션들 (0) | 2023.11.27 |
데이터 레이크와 ELT (0) | 2023.11.27 |
데이터 엔지니어 (0) | 2023.11.27 |