Airflow란 무엇인가?
Airflow는 파이썬으로 작성된 데이터 파이프라인 (ETL) 프레임웍
가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임웍
Airflow에서 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름
Airflow의 장점
데이터 파이프라인을 세밀하게 제어 가능
다양한 데이터 소스와 데이터 웨어하우스를 지원
백필(Backfill)이 쉬움
Airflow 관련 중요 용어/개념
start_date, execution_date, catchup
스케일링 방식
Scale Up vs. Scale Out vs. 클라우드 버전 vs. K8s 사용
데이터 파이프라인 작성시 기억할 점
데이터 파이프라인에 관한 정보를 수집하는 것이 중요
비지니스 오너와 데이터 리니지에 주의할 것
결국 데이터 카탈로그가 필요 (데이터 카탈로그의 검색을 돕는 기능이 데이터 디스커버리입니다.)
데이터 품질 체크
입력 데이터와 출력 데이터 (Airflow 고급 기능과 Spark에서 몇개 살펴보겠습니다.)
코드 실패를 어설프게 복구하려는 것보다는 깔끔하게 실패하는 것이 좋음
가능하면 Full Refresh
Incremental Update를 쓸 수 밖에 없다면 Backfill 방식을 먼저 생각해둘 것 -> Airflow가 필요한 이유
주기적인 청소 (데이터, 테이블, Dag)
다음 스텝
Airflow 고도화 강의에서 더 많은 내용을 공부할 예정
운영, 고급 기능 (다양한 방식의 DAG 트리거), 구글 스프레드시트 연동, 슬랙 연동
컨테이너 기술 공부 (Docker와 K8s)
Spark에 대해 학습하여 빅데이터 처리
배치가 아닌 리얼타임 기준으로 스트리밍 데이터 처리 (Kafka, Kinesis)
'Airflow' 카테고리의 다른 글
| 9주차 - 5 [Airflow] (0) | 2023.12.18 |
|---|---|
| Airflow - MySQL 테이블 복사하기 (3) Backfill 실행해보기 (0) | 2023.12.15 |
| Airflow - MySQL 테이블 복사하기 (2) (0) | 2023.12.15 |
| Airflow - MySQL 테이블 복사하기 (1) 전체적인 개요 (0) | 2023.12.15 |
| Airflow - 숙제 리뷰 (0) | 2023.12.15 |