터칭 데이터
데이터 엔지니어 본문
데이터 엔지니어의 역할
기본적으로는 소프트웨어 엔지니어
파이썬 다만 자바 혹은 스칼라와 같은 언어를 아는 것도 좋음
데이터 웨어하우스 구축
데이터 웨어하우스를 만들고 이를 관리. 클라우드로 가는 것이 추세
AWS의 Redshift, 구글클라우드의 BigQuery, 스노우플레이크
관련해서 중요한 작업중의 하나는 ETL 코드를 작성하고 주기적으로 실행해주는 것
ETL 스케줄러 혹은 프레임웍이 필요 (Airflow라는 오픈소스가 대세)
데이터 분석가와 과학자 지원
데이터 분석가, 데이터 과학자들과의 협업을 통해 필요한 툴이나 데이터를 제공해주는 것이 데이터 엔지니어의 중요한 역할 중의 하나
주니어 데이터 엔지니어에게 필요한 기술 스택
SQL: 기본 SQL, Hive, Presto, SparkSQL, …
프로그래밍 언어: 파이썬, 스칼라, 자바
데이터 웨어하우스 中 1개 이상
Redshift/Snowflake/BigQuery
ETL/ELT 프레임웍: Airflow, …
대용량 데이터 처리 플랫폼: Spark/YARN
추가로 알면 도움되는 기술 스택
컨테이너 기술 - Docker/K8s
클라우드 컴퓨팅 中 1개 이상
AWS, GCP, Azure
도움이 되는 기타 지식
머신 러닝 일반
A/B 테스트, 통계
데이터 엔지니어 스킬 로드맵
MLOps 혹은 ML Engineer가 다음 스텝이 많이 됨
한눈에 보는 로드맵
https://github.com/datastacktv/data-engineer-roadmap
GitHub - datastacktv/data-engineer-roadmap: Roadmap to becoming a data engineer in 2021
Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.
github.com
'데이터 웨어하우스(Data Warehouse)' 카테고리의 다른 글
Redshift의 특징과 개념 (0) | 2023.11.28 |
---|---|
데이터 플랫폼의 발전단계 (0) | 2023.11.27 |
데이터 웨어하우스 옵션들 (0) | 2023.11.27 |
데이터 레이크와 ELT (0) | 2023.11.27 |
데이터 웨어하우스와 ETL의 개념 (0) | 2023.11.27 |