터칭 데이터

데이터 카탈로그 제품 서베이 본문

Airflow 고급 기능, dbt, Data Catalog

데이터 카탈로그 제품 서베이

터칭 데이터 2024. 1. 5. 12:56

 

 

5. 데이터 카탈로그 소개


데이터 카탈로그가 가져야할 기능

데이터 카탈로그 제품 서베이
데이터허브 소개

 

 

 

 

 

 

 

 

 

Contents

 

1. 데이터 카탈로그 기능 정의

 

2. 데이터 카탈로그 제품 서베이

 

3. DataHub 데모

 

 

 

 

 

 

 

 

 

 

 

데이터 카탈로그 트렌드

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

데이터 카탈로그 툴

 

상용제품

Alation, Collibra
Atlan, Select Star, Great Expectations

 

오픈소스

Amundsen (Lyft), DataHub (LinkedIn)
AcrylData (DataHub를 상용화)

 

클라우드 서비스

AWS Glue Data Catalog
Google Cloud Data Catalog
Microsoft Azure Data Catalog (Purview Data Catalog로 통합 중)

 

자체 툴

DataBook (Uber)
DataPortal (Airbnb)

 

 

 

 

 

 

 

 

 

 

 

 

실리콘 밸리 IT 기업 데이터 카탈로그 설문 (2023.01)

 

 

 

 

 

 

 

 

 

 

 

Atlan 소개

 

2018년 창업 스타트업 (싱가폴, 인도 기반)

 

“Modern Data Workspace” (3rd generation data catalog)

협업 관련 여러 서비스들과의 연동에 초점 (Slack, Jira, Github 등등)
Slack에서 “Contextual discussion”이란 것을 지원
데이터 관련 이슈를 바로 Jira와 연동하여 리포트 가능

 

기타 특징

오픈 API를 통한 새로운 메타데이터의 추가 연동이 쉬움 (플러그인 마켓플레이스)
프로그래밍이 가능한 봇을 사용해 태스크 자동화 가능

 

 

 

 

 

 

 

 

 

 

 

 

DataHub

 

2013년에 LinkedIn 내부 프로젝트로 시작했다가 2018년에 오픈소스가 됨

 

Acryl Data라는 스타트업으로 2020년 창업됨

 

“A Metadata Platform for the Modern Data Stack”

 

굉장히 많은 기능이 존재하나 엔지니어 없이는 운영 불가! 

 

 

 

 

 

 

 

 

 

 

 

 

 

Microsoft Azure Purview Data Catalog

 

2022년 4월 Azure Data Catalog가 Purview의 서비스로 리브랜딩됨

 

Purview Data Map이란 메타데이터 관리 서비스 위에서 동작

메타데이터를 수집하고 리니지 정보 추출과 PII등의 데이터 분류를 담당

 

기타 특징

아주 다양한 데이터 플랫폼을 지원
비지니스 용어와 태깅과 관련된 기능이 다른 제품보다 잘 되어있음
데이터 거버넌스 제품의 일부 서비스이기에 거버넌스로 확장 용이

 

 

 

 

 

 

'Airflow 고급 기능, dbt, Data Catalog' 카테고리의 다른 글

요약  (0) 2024.01.05
데이터 카탈로그 기능 소개  (0) 2024.01.05
DBT 요약  (0) 2024.01.05
DBT Tests, Documentation, Expectations  (0) 2024.01.05
DBT Snapshots  (0) 2024.01.05