전체 글 373

데이터 플랫폼의 발전단계

데이터 플랫폼의 발전단계 초기 단계: 데이터 웨어하우스 + ETL 발전 단계: 데이터 양 증가 Spark과 같은 빅데이터 처리시스템 도입 데이터 레이크 도입 성숙 단계: 데이터 활용 증대 현업단의 데이터 활용이 가속화 ETL단이 더 중요해지면서 dbt 등의 analytics engineering 도입 MLOps 등 머신러닝 관련 효율성 증대 노력 증대 ◆ 발전 단계: 데이터 양 증가 ❖ Spark과 같은 빅데이터 처리시스템 도입 ❖ 데이터 레이크 도입: 보통 로그 데이터와 같은 대용량 비구조화 데이터 대상 데이터 소스 -> 데이터 파이프라인 -> 데이터 웨어하우스 데이터 소스 -> 데이터 파이프라인 -> 데이터 레이크 데이터 레이크 -> 데이터 파이프라인 -> 데이터 웨어하우스 ▪ 이때 Spark/Had..

데이터 웨어하우스 옵션들

◆ 살펴볼 옵션들 AWS Redshift Snowflake Google Cloud BigQuery Apache Hive Apache Presto Apache Iceberg Apache Spark 이 옵션들의 공통점은? Iceberg를 제외하고는 모두 SQL을 지원하는 빅데이터 기반 데이터베이스 ◆ AWS Redshift ❖ 2012년에 시작된 AWS 기반의 데이터웨어하우스로 PB 스케일 데이터 분산 처리 가능 Postgresql과 호환되는 SQL로 처리 가능하게 해줌 Python UDF (User Defined Function)의 작성을 통해 기능 확장 가능 처음에는 고정비용 모델로 시작했으나 이제는 가변비용 모델도 지원 (Redshift Serverless) 온디맨드 가격 이외에도 예약 가격 옵션도 지..

데이터 레이크와 ELT

Data Lake Data Warehouse와 Data Lake는 둘 다 대량의 데이터를 저장하고 분석하는 데 사용되는 시스템이지만, 그들의 목적과 구조는 매우 다릅니다. Data Warehouse: Data Warehouse는 구조화된 데이터를 저장하고 관리하는 시스템입니다. 이 시스템은 일반적으로 OLAP (Online Analytical Processing) 작업을 지원하며, 복잡한 쿼리와 데이터 분석을 처리하는 데 사용됩니다. Data Warehouse는 데이터를 주제별로 구성하고, 데이터의 일관성과 품질을 유지하는 데 중점을 둡니다. 이 시스템은 일반적으로 비즈니스 인텔리전스, 보고, 데이터 마이닝 등에 사용됩니다. Data Lake: Data Lake는 구조화되지 않은 데이터를 포함한 모든 유..

데이터 엔지니어

데이터 엔지니어의 역할 기본적으로는 소프트웨어 엔지니어 파이썬 다만 자바 혹은 스칼라와 같은 언어를 아는 것도 좋음 데이터 웨어하우스 구축 데이터 웨어하우스를 만들고 이를 관리. 클라우드로 가는 것이 추세 AWS의 Redshift, 구글클라우드의 BigQuery, 스노우플레이크 관련해서 중요한 작업중의 하나는 ETL 코드를 작성하고 주기적으로 실행해주는 것 ETL 스케줄러 혹은 프레임웍이 필요 (Airflow라는 오픈소스가 대세) 데이터 분석가와 과학자 지원 데이터 분석가, 데이터 과학자들과의 협업을 통해 필요한 툴이나 데이터를 제공해주는 것이 데이터 엔지니어의 중요한 역할 중의 하나 주니어 데이터 엔지니어에게 필요한 기술 스택 SQL: 기본 SQL, Hive, Presto, SparkSQL, … 프로그..

데이터 웨어하우스와 ETL의 개념

데이터 웨어하우스 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스 (SQL 데이터베이스) 여전히 SQL 기반의 관계형 데이터베이스 프로덕션 데이터베이스와는 별도이어야 함 그래서 회사에 존재하는 모든 데이터를 데이터 웨어하우스에 복사해두고 사용합니다. 서비스 개발자들이 사용하는 프로덕션 데이터베이스와 분리되어있기 때문에 서비스에 지장이 없습니다. OLAP (OnLine Analytical Processing) vs. OLTP (OnLine Transaction Processing) 크기가 커진다면 다음 중 하나를 선택 AWS Redshift, 구글 클라우드의 BigQuery 스노우플레이크(Snowflake) 오픈소스 기반의 하둡(Hive/Presto)/Spark 이 모두 SQL을 지원 AWS의 Re..

API Gateway

API Gateway Amazon API Gateway는 개발자가 API를 생성, 배포, 관리하고 보호할 수 있게 해주는 완전관리형 서비스입니다. API Gateway의 주요 기능은 다음과 같습니다: API 생성 및 배포: API Gateway를 사용하면, RESTful API와 WebSocket API를 쉽게 생성하고 배포할 수 있습니다. 이를 통해 애플리케이션에 데이터를 제공하거나, 비즈니스 로직 또는 AWS 서비스에 액세스하는 등의 작업을 수행할 수 있습니다. 트래픽 관리: API Gateway는 API 트래픽을 관리하고, 트래픽 스파이크를 처리하는 데 도움이 됩니다. 이를 위해 버전 관리, 트래픽 분할, 스테이지 변수 등의 기능을 제공합니다. 보안: API Gateway는 AWS Identity ..

AWS 클라우드 2023.11.23

ECS/ERS

ECS와 ERS **Amazon Elastic Container Service (ECS)**와 **Amazon Elastic Container Registry (ECR)**는 AWS에서 제공하는 컨테이너 관련 서비스입니다. Amazon Elastic Container Service (ECS): ECS는 완전관리형 컨테이너 오케스트레이션 서비스로, Docker 컨테이너를 쉽게 배포, 실행, 관리할 수 있게 해줍니다. ECS는 마이크로서비스 아키텍처를 구현하거나 배치 워크로드를 실행하는 등 다양한 사용 사례에 적합합니다. ECS는 AWS Fargate와 함께 사용되어 서버 또는 클러스터를 직접 관리할 필요 없이 컨테이너를 실행할 수 있게 해줍니다. Amazon Elastic Container Registry..

AWS 클라우드 2023.11.23