터칭 데이터

데이터 레이크와 ELT 본문

데이터 웨어하우스(Data Warehouse)

데이터 레이크와 ELT

터칭 데이터 2023. 11. 27. 18:53

 

 

 

 

 

Data Lake

 

Data Warehouse와 Data Lake는 둘 다 대량의 데이터를 저장하고 분석하는 데 사용되는 시스템이지만, 그들의 목적과 구조는 매우 다릅니다.

 

Data Warehouse:

Data Warehouse는 구조화된 데이터를 저장하고 관리하는 시스템입니다.


이 시스템은 일반적으로 OLAP (Online Analytical Processing) 작업을 지원하며, 복잡한 쿼리와 데이터 분석을 처리하는 데 사용됩니다.


Data Warehouse는 데이터를 주제별로 구성하고, 데이터의 일관성과 품질을 유지하는 데 중점을 둡니다.

 

이 시스템은 일반적으로 비즈니스 인텔리전스, 보고, 데이터 마이닝 등에 사용됩니다.

 

 

 

Data Lake:

Data Lake는 구조화되지 않은 데이터를 포함한 모든 유형의 데이터를 저장하는 시스템입니다.


이 시스템은 데이터를 원래의 형식으로 저장하며, 필요에 따라 데이터를 추출하고 변환하는 데 사용됩니다.


Data Lake는 데이터의 다양성과 유연성에 중점을 둡니다.


이 시스템은 일반적으로 빅 데이터 분석, 데이터 과학, 기계 학습 등에 사용됩니다.


따라서, Data Warehouse는 주로 구조화된 데이터를 위한 분석에 초점을 맞추는 반면, Data Lake는 다양한 유형의 데이터를 저장하고 분석하는 데 유용합니다.

 

 

 

 

 

 

 

 

 

ELT

 

**ETL (Extract, Transform, Load)**과 **ELT (Extract, Load, Transform)**는 데이터 웨어하우스에 데이터를 가져오는 두 가지 주요 방법입니다. 이들은 데이터를 추출, 변환, 로드하는 순서에 따라 이름이 지어졌습니다.

 

ETL (Extract, Transform, Load):

외부에 있는 데이터를 데이터 웨어하우스에 로드하는 작업입니다.

 

ETL은 데이터를 원본 시스템에서 추출하고, 변환 작업을 수행한 후, 데이터 웨어하우스에 로드하는 방식입니다.


변환 단계에서는 데이터 클렌징, 검증, 중복 제거, 데이터 형식 변경 등의 작업이 수행됩니다.


ETL은 구조화된 데이터에 대한 복잡한 쿼리를 지원하며, 데이터의 품질과 일관성을 보장하는 데 중점을 둡니다.

 

Airflow가 대표적인 프레임워크

 

 

 

ELT (Extract, Load, Transform):

데이터 웨어하우스내의 데이터를 추상화되고 요약된 새로운 데이터로 만드는 작업입니다.

 

ELT는 데이터를 원본 시스템에서 추출하고, 먼저 데이터 웨어하우스에 로드한 후, 변환 작업을 수행하는 방식입니다.


이 방식은 빅 데이터와 클라우드 기반 데이터 웨어하우스에서 더욱 일반적입니다.


ELT는 데이터 웨어하우스에서 직접 변환을 수행하므로, 더 큰 데이터 세트를 처리하고, 더 빠른 분석을 수행할 수 있습니다.


따라서, ETL과 ELT의 주요 차이점은 데이터 변환이 어디에서 이루어지는지에 있습니다. ETL은 변환을 로드 전에 수행하는 반면, ELT는 로드 후에 변환을 수행합니다. 이는 데이터의 크기, 복잡성, 그리고 처리 요구 사항에 따라 선택할 수 있습니다.