Notice
Recent Posts
Recent Comments
Link
터칭 데이터
데이터 웨어하우스와 ETL의 개념 본문
데이터 웨어하우스
회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스 (SQL 데이터베이스)
여전히 SQL 기반의 관계형 데이터베이스
프로덕션 데이터베이스와는 별도이어야 함
그래서 회사에 존재하는 모든 데이터를 데이터 웨어하우스에 복사해두고 사용합니다. 서비스 개발자들이 사용하는 프로덕션 데이터베이스와 분리되어있기 때문에 서비스에 지장이 없습니다.
OLAP (OnLine Analytical Processing) vs. OLTP (OnLine Transaction Processing)
크기가 커진다면 다음 중 하나를 선택
AWS Redshift, 구글 클라우드의 BigQuery
스노우플레이크(Snowflake)
오픈소스 기반의 하둡(Hive/Presto)/Spark
이 모두 SQL을 지원
AWS의 Redshift, Google Cloud의 Big Query, Snowflake 등이 대표적
고정비용 옵션 vs. 가변비용 옵션
데이터 웨어하우스는 고객이 아닌 내부 직원을 위한 데이터베이스
처리속도가 아닌 처리 데이터의 크기가 더 중요해짐
ETL(Extract, Transform, Load) 혹은 데이터 파이프라인
외부에 존재하는 데이터를 읽어다가 데이터 웨어하우스로 저장해주는 코드들이 필요해지는데 이를 ETL 혹은 데이터 파이프라인이라고 부름
다른 곳에 존재하는 데이터를 가져다가 데이터 웨어하우스에 로드하는 작업
Extract: 외부 데이터 소스에서 데이터를 추출
Transform: 데이터의 포맷을 원하는 형태로 변환
Load: 변환된 데이터를 최종적으로 데이터 웨어하우스로 적재
데이터 파이프라인이라고 부르기도 함
관련하여 가장 많이 쓰이는 프레임웍은 Airflow
Airflow는 오픈소스 프로젝트로 파이썬 3 기반이며 Airbnb에서 시작
AWS와 구글 클라우드에서도 지원
ETL 관련 SaaS (Software as a Service)도 출현하기 시작
흔한 데이터 소스의 경우 FiveTran, Stitch Data와 같은 SaaS를 사용하는 것도 가능
'데이터 웨어하우스(Data Warehouse)' 카테고리의 다른 글
Redshift의 특징과 개념 (0) | 2023.11.28 |
---|---|
데이터 플랫폼의 발전단계 (0) | 2023.11.27 |
데이터 웨어하우스 옵션들 (0) | 2023.11.27 |
데이터 레이크와 ELT (0) | 2023.11.27 |
데이터 엔지니어 (0) | 2023.11.27 |