터칭 데이터

DBT Seeds 본문

Airflow 고급 기능, dbt, Data Catalog

DBT Seeds

터칭 데이터 2024. 1. 5. 00:57

 

 

 

 

 

Contents


1. ELT의 미래는?
2. Database Normalization
3. dbt 소개
4. dbt 사용 시나리오
5. dbt 설치와 환경 설정
6. dbt Models: Input
7. dbt Models: Output
8. dbt Seeds
9. dbt Sources
10. dbt Snapshots
11. dbt Tests
12. dbt Documentation
13. dbt Expectations
14. 마무리

 

 

 

 

 

 

 

dbt Seeds


dbt Seeds란 무엇인가?

 

 

 

 

 

 

 

 

 

 

Seeds 소개

Dimension 테이블을 csv 파일 형태로 쉽게 만든 뒤 데이터 웨어하우스로 로딩하는 방법

 

많은 dimension 테이블들은 크기가 작고 많이 변하지 않음

 

Seeds는 이를 파일 형태로 데이터웨어하우스로 로드하는 방법

Seeds는 작은 파일 데이터를 지칭 (보통 csv 파일)

 

dbt seed를 실행해서 빌드

 

 

 

 

 

 

 

 

 

 

◆ Seeds 실습 (1) 

seeds 폴더 밑에 적당히 .csv 파일을 하나 생성

나중에 이 파일 이름으로 테이블이 생성됨

 

 

 

seeds/reference_date.csv

date
2023-01-01
2023-01-02
2023-01-03
2023-01-04
2023-01-05
2023-01-06
2023-01-07
2023-01-08
2023-01-09
2023-01-10
2023-01-11
2023-01-12
2023-01-13

 

 

 

reference_date

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Seeds 실습 (2)

다음으로 dbt seed 실행


기본적으로 프로젝트를 만들 때 등록한 스키마 아래에 csv 이름으로 주었던 테이블이 생성됩니다.

 

 

 

 

 

 

◆ Seeds 실습 (3) 

 

실행 결과 확인

 

다른 SQL에서 사용시

{{ ref("reference_date") }}

 

 

 

 

 

 

 

 

 

 

 

 

 

실습

 

 

learn_dbt/seeds

 

learn_dbt의 seeds 폴더에 reference_date.csv 파일을 만듭니다.

 

 

reference_date.csv

date
2023-01-01
2023-01-02
2023-01-03
2023-01-04
2023-01-05

 

 

 

 

 

dbt seed를 실행합니다.

PS D:\Dev_KDT\dbt\learn_dbt\seeds> dbt seed

 

 

 

 

 

그리고 적절한 Redshift 클라이언트 툴에서 확인해봅니다.

SELECT * FROM (각자 스키마).reference_date;

 

date

2023-01-01
2023-01-02
2023-01-03
2023-01-04
2023-01-05

 

정상적으로 데이터들이 적재된 것을 볼 수 있습니다.

 

 

 

 

 

 

'Airflow 고급 기능, dbt, Data Catalog' 카테고리의 다른 글

DBT Snapshots  (0) 2024.01.05
DBT Sources  (0) 2024.01.05
데모 Input-Output  (0) 2024.01.04
DBT - Outnput  (0) 2024.01.04
DBT - Input  (0) 2024.01.04