전체 글 373

데이터 카탈로그 제품 서베이

5. 데이터 카탈로그 소개 데이터 카탈로그가 가져야할 기능 데이터 카탈로그 제품 서베이 데이터허브 소개 Contents 1. 데이터 카탈로그 기능 정의 2. 데이터 카탈로그 제품 서베이 3. DataHub 데모 데이터 카탈로그 트렌드 데이터 카탈로그 툴 상용제품 Alation, Collibra Atlan, Select Star, Great Expectations 오픈소스 Amundsen (Lyft), DataHub (LinkedIn) AcrylData (DataHub를 상용화) 클라우드 서비스 AWS Glue Data Catalog Google Cloud Data Catalog Microsoft Azure Data Catalog (Purview Data Catalog로 통합 중) 자체 툴 DataBook..

데이터 카탈로그 기능 소개

5. 데이터 카탈로그 소개 데이터 카탈로그가 가져야할 기능 데이터 카탈로그 제품 서베이 데이터허브 소개 Contents 1. 데이터 카탈로그 기능 정의 2. 데이터 카탈로그 제품 서베이 3. DataHub 데모 데이터 카탈로그는 주요 데이터 기술 스택! In its 2022 report on emerging data management technologies, Gartner said cataloging tools are at the "early mainstream" level of maturity and estimated that they're currently being used by 5% to 20% of the potential user base. 많은 회사들이 데이터 카탈로그를 메인 데이터 거버넌..

DBT 요약

요약 ELT 품질의 중요성 dbt 소개 dbt를 소개하면 모델(model)에 대해 설명 데이터 품질 테스트: Tests 내장 테스트와 커스텀 test 아주 유용한 기능: Snapshots 테이블의 내용이 어떻게 바뀌었는지 추적 가능 기본적으로 Dimension에 적용 용이한 Documentation Description이라는 형태로 다양한 yaml 파일에 추가하고 이를 바탕으로 Document 웹서버를 띄워 데이터 리니지를 볼 수 있음 테스트 기능 Expectation

DBT Tests, Documentation, Expectations

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Tests dbt Tests란 무엇인가? Tests 소개 데이터 품질을 테스트하는 방법 두 가지가 존재 내장 일반 테스트 (“Generic”) - unique, not_null, accepted_values, relationships 등의 테스트 지원 - models ..

DBT Snapshots

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Snapshots dbt Snapshots이란 무엇인가? 데이터베이스에서 스냅샷이란? Dimension 테이블은 성격에 따라 변경이 자주 생길 수 있음 dbt에서는 테이블의 변화를 계속적으로 기록함으로써 과거 어느 시점이건 다시 돌아가서 테이블의 내용을 볼 수 있는 기..

DBT Sources

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Sources dbt Sources란 무엇인가? Staging 테이블을 만들 때 입력 테이블들이 자주 바뀐다면? models 밑의 .sql 파일들을 일일이 찾아 바꿔주어야함 이 번거로움을 해결하기 위한 것이 Sources 입력 테이블에 별칭을 주고 별칭을 staging..

DBT Seeds

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Seeds dbt Seeds란 무엇인가? Seeds 소개 Dimension 테이블을 csv 파일 형태로 쉽게 만든 뒤 데이터 웨어하우스로 로딩하는 방법 많은 dimension 테이블들은 크기가 작고 많이 변하지 않음 Seeds는 이를 파일 형태로 데이터웨어하우스로 로드..