목록Airflow 고급 기능, dbt, Data Catalog (29)
터칭 데이터
요약 Airflow 고급 기능과 운영 slack 연동, 구글 스프레드 시트 연동 운영과 관련해 유념할 점 Airflow 대안 등 ELT ELT를 위한 DBT 데이터 카탈로그: DataHub 한번에 다 익히기보다는 이런게 있구나 보고 이후에 필요하다면 다시 자세히 찾아 사용해야겠다는 자세로 강의를 들어주세요.

5. 데이터 카탈로그 소개 데이터 카탈로그가 가져야할 기능 데이터 카탈로그 제품 서베이 데이터허브 소개 Contents 1. 데이터 카탈로그 기능 정의 2. 데이터 카탈로그 제품 서베이 3. DataHub 데모 데이터 카탈로그 트렌드 데이터 카탈로그 툴 상용제품 Alation, Collibra Atlan, Select Star, Great Expectations 오픈소스 Amundsen (Lyft), DataHub (LinkedIn) AcrylData (DataHub를 상용화) 클라우드 서비스 AWS Glue Data Catalog Google Cloud Data Catalog Microsoft Azure Data Catalog (Purview Data Catalog로 통합 중) 자체 툴 DataBook..

5. 데이터 카탈로그 소개 데이터 카탈로그가 가져야할 기능 데이터 카탈로그 제품 서베이 데이터허브 소개 Contents 1. 데이터 카탈로그 기능 정의 2. 데이터 카탈로그 제품 서베이 3. DataHub 데모 데이터 카탈로그는 주요 데이터 기술 스택! In its 2022 report on emerging data management technologies, Gartner said cataloging tools are at the "early mainstream" level of maturity and estimated that they're currently being used by 5% to 20% of the potential user base. 많은 회사들이 데이터 카탈로그를 메인 데이터 거버넌..
요약 ELT 품질의 중요성 dbt 소개 dbt를 소개하면 모델(model)에 대해 설명 데이터 품질 테스트: Tests 내장 테스트와 커스텀 test 아주 유용한 기능: Snapshots 테이블의 내용이 어떻게 바뀌었는지 추적 가능 기본적으로 Dimension에 적용 용이한 Documentation Description이라는 형태로 다양한 yaml 파일에 추가하고 이를 바탕으로 Document 웹서버를 띄워 데이터 리니지를 볼 수 있음 테스트 기능 Expectation

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Tests dbt Tests란 무엇인가? Tests 소개 데이터 품질을 테스트하는 방법 두 가지가 존재 내장 일반 테스트 (“Generic”) - unique, not_null, accepted_values, relationships 등의 테스트 지원 - models ..

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Snapshots dbt Snapshots이란 무엇인가? 데이터베이스에서 스냅샷이란? Dimension 테이블은 성격에 따라 변경이 자주 생길 수 있음 dbt에서는 테이블의 변화를 계속적으로 기록함으로써 과거 어느 시점이건 다시 돌아가서 테이블의 내용을 볼 수 있는 기..

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Sources dbt Sources란 무엇인가? Staging 테이블을 만들 때 입력 테이블들이 자주 바뀐다면? models 밑의 .sql 파일들을 일일이 찾아 바꿔주어야함 이 번거로움을 해결하기 위한 것이 Sources 입력 테이블에 별칭을 주고 별칭을 staging..

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Seeds dbt Seeds란 무엇인가? Seeds 소개 Dimension 테이블을 csv 파일 형태로 쉽게 만든 뒤 데이터 웨어하우스로 로딩하는 방법 많은 dimension 테이블들은 크기가 작고 많이 변하지 않음 Seeds는 이를 파일 형태로 데이터웨어하우스로 로드..

데모: dbt Models: Input & Output 앞서 내용들을 전체적으로 직접 실행해보자 아까 설치한 learn_dbt 프로젝트로 이동하여 dbt_project.yml 파일을 수정할겁니다. 마지막 두 줄을 삭제합니다. 예제로 만들어져 우리가 사용하지 않기 때문입니다. 삭제 후 저장을 마치고 models 폴더의 example 폴더를 삭제합니다. 대신 src 폴더를 만들고 src 폴더로 이동한 후 3개의 파일을 만듭니다. src_user_event.sql WITH src_user_event AS ( SELECT * FROM raw_data.user_event ) SELECT user_id, datestamp, item_id, clicked, purchased, paidamount FROM src_us..

Contents 1. ELT의 미래는? 2. Database Normalization 3. dbt 소개 4. dbt 사용 시나리오 5. dbt 설치와 환경 설정 6. dbt Models: Input 7. dbt Models: Output 8. dbt Seeds 9. dbt Sources 10. dbt Snapshots 11. dbt Tests 12. dbt Documentation 13. dbt Expectations 14. 마무리 dbt Models: Output 최종 출력 데이터를 만드는 과정을 살펴보자 Materialization이란? 입력 데이터(테이블)들을 연결해서 새로운 데이터(테이블) 생성하는 것 보통 여기서 추가 transformation이나 데이터 클린업 수행 4가지의 내장 materia..