터칭 데이터

데이터 엔지니어 본문

데이터 웨어하우스(Data Warehouse)

데이터 엔지니어

터칭 데이터 2023. 11. 27. 18:06

데이터 엔지니어의 역할

기본적으로는 소프트웨어 엔지니어

파이썬 다만 자바 혹은 스칼라와 같은 언어를 아는 것도 좋음


데이터 웨어하우스 구축

데이터 웨어하우스를 만들고 이를 관리. 클라우드로 가는 것이 추세

AWS의 Redshift, 구글클라우드의 BigQuery, 스노우플레이크


관련해서 중요한 작업중의 하나는 ETL 코드를 작성하고 주기적으로 실행해주는 것

ETL 스케줄러 혹은 프레임웍이 필요 (Airflow라는 오픈소스가 대세)


데이터 분석가와 과학자 지원

데이터 분석가, 데이터 과학자들과의 협업을 통해 필요한 툴이나 데이터를 제공해주는 것이 데이터 엔지니어의 중요한 역할 중의 하나

 

 

 

 

 

 

주니어 데이터 엔지니어에게 필요한 기술 스택

SQL: 기본 SQL, Hive, Presto, SparkSQL, …
프로그래밍 언어: 파이썬, 스칼라, 자바

데이터 웨어하우스 中 1개 이상
Redshift/Snowflake/BigQuery

ETL/ELT 프레임웍: Airflow, …
대용량 데이터 처리 플랫폼: Spark/YARN

 

 

추가로 알면 도움되는 기술 스택

컨테이너 기술 - Docker/K8s

 

클라우드 컴퓨팅 中 1개 이상
AWS, GCP, Azure

 

도움이 되는 기타 지식
머신 러닝 일반
A/B 테스트, 통계

 

데이터 엔지니어 스킬 로드맵
MLOps 혹은 ML Engineer가 다음 스텝이 많이 됨

 

 

 

 

 

한눈에 보는 로드맵

 

https://github.com/datastacktv/data-engineer-roadmap

 

GitHub - datastacktv/data-engineer-roadmap: Roadmap to becoming a data engineer in 2021

Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.

github.com