Airflow
Airflow 소개
터칭 데이터
2023. 12. 11. 19:23
Airflow 소개 (1)
Airflow는 파이썬으로 작성된 데이터 파이프라인 (ETL) 프레임웍
Airbnb에서 시작한 아파치 오픈소스 프로젝트
가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임웍
데이터 파이프라인 스케줄링 지원
정해진 시간에 ETL 실행 혹은 한 ETL의 실행이 끝나면 다음 ETL 실행
웹 UI를 제공하기도 함
Airflow 소개 (2)
데이터 파이프라인(ETL)을 쉽게 만들 수 있도록 해줌
다양한 데이터 소스와 데이터 웨어하우스를 쉽게 통합해주는 모듈 제공
- https://airflow.apache.org/docs/
데이터 파이프라인 관리 관련 다양한 기능을 제공해줌: 특히 Backfill
Airflow에서는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름
하나의 DAG는 하나 이상의 태스크로 구성됨
Airflow는 태스크 단위로 코드를 실행합니다. 하나의 파이프라인에 5개의 태스크가 있는 경우가 있고 이를 어떤 순서로 실행할지 스케줄링하고 다음으로 넘어가는 과정을 생각하시면 이해하시기 쉬울겁니다.
2020년 12월에 Airflow 2.0이 릴리스됨
최신 버전은 버그가 있는 경우가 많으므로 유념해주세요.
Airflow 버전 선택 방법: 큰 회사에서 사용하는 버전이 무엇인지 확인.
https://cloud.google.com/composer/docs/concepts/versioning/composer-versions
Airflow 웹 UI
파이프라인의 테크니컬 오너, 상태, 마지막 실행시간 등의 정보들을 확인할 수 있습니다.
또 태그 기능을 제공하는데 파이프라인이 많아지는 경우 팀별로, 중요도 별로 태그를 만들고 태그를 중심으로 카테고리화해 관리하는 경우가 많습니다.