목록데이터 웨어하우스(Data Warehouse) (40)
터칭 데이터
최종 정리 클라우드 데이터웨어하우스의 기능은 대동소이 하지만 다양한 관점에서 봤을 때 Snowflake, BigQuery, Redshift의 순으로 추천 가변비용 모델이 일반적으로 고정비용 모델보다 더 큰 데이터 처리 가능 작은 회사이고 비용이 중요하다면 Redshift 가변비용이 더 좋음 데이터 활용이 늘어나면 데이터 품질 유지와 개인정보 보호가 중요 데이터 민주화와 데이터 탈중앙화는 거스를 수 없는 트렌드 “데이터 거버넌스"는 데이터 품질 유지와 개인정보 보호를 보장하기 위한 프로세스 대시보드 기술적인 분석 중심 대시보드 기술과 아닌 것 존재 - 후자가 Tableau, Looker, Power BI, Superset 등등 -> KPI/지표 대시보드 - 전자는 Mode Analytics, Python ..

이번 시간에는 Cohort 차트를 만들고 이전에 만든 MAU 차트와 합쳐 하나의 대시보드를 만들려고 합니다. 이 섹션에서 할 일 요약 1. Dataset (cohort_summary 테이블) 임포트하기 2. Cohort 차트 만들기 (Pivot도 사용) 2개의 차트를 만들어 볼텐데 실무에서는 2번 형태로 만드는 것이 더 일반적입니다. 3. Cohort 차트로 일단 대시보드 생성 4. MAU 차트를 대시보드에 추가 1. cohort_summary 테이블을 Dataset으로 추가 2. 1번 차트 생성: Cohort 저희가 첫 번째로 만들어볼 차트 모양입니다. pivot 타입을 선택할겁니다. (현재 Pivot Table(legacy)는 사라졌습니다.) 위와 같이 입력하고 CREATE CHART를 누릅니다. 1..

이 섹션에서 할 일 1. Redshift Database Connection 설정(앞서 Preset에서 한 일을 Docker에서도 해볼 예정) 2. analytics 스키마의 user_session_summary 테이블을 Dataset으로서 임포트하기 Superset에서 임포트(import)란 Dataset의 모든 레코드들을 Superset으로 가져온다는 것이 아니라 메타정보만 이 곳에 있고 연산을 할 때마다 가서 읽어오는 방식입니다. 3. 아래와 같은 MAU 차트 만들고 저장하기 1. Database Connection 설정 우측 상단의 Settings에서 Database Connections를 클릭하면 위와 같은 화면으로 가실 수 있습니다. 현재는 Docker에 Superset을 설치하며 같이 제공된..

https://superset.apache.org/docs/installation/installing-superset-using-docker-compose/ Installing Locally Using Docker Compose | Superset Installing Superset Locally Using Docker Compose superset.apache.org 상단의 Superset 공식 문서를 참고해 Docker에서 Superset을 실행해보겠습니다. 1. 먼저 터미널 프로그램을 실행합니다. 저는 Git Bash를 사용했습니다. 2. 그리고 적당한 곳에 디렉토리(폴더)를 하나 만들어주세요. 저는 용량이 큰 D드라이브에 dev_KDT라는 이름의 폴더를 생성했습니다. 3. Superset Gith..

Docker 설치 https://docs.docker.com/desktop/install/windows-install/ Install Docker Desktop on Windows Get started with Docker for Windows. This guide covers system requirements, where to download, and instructions on how to install and update. docs.docker.com 파란색 Docker Desktop for Windows 버튼을 클릭합니다. 혹은 Docker 공식홈페이지에서 Docs로 접속합니다. Download and install을 클릭합니다. Docker Desktop for Windows를 선택합니다. 파..

Preset.io 회원가입 Sign up for free로 회원가입을 진행합니다. Gmail로 회원가입을 진행하겠습니다. 무료 체험은 14일입니다. 참고로 우리는 현재 실습중이므로 회사 이름은 대충 입력하셔도 좋습니다. (저는 현재 다니는 회사가 없으므로 no라는 이름으로 기입했습니다..) 그리고 일단 workspace 이름을 필수적으로 기입하라는데 no라고 입력했습니다. (나중에 삭제하고 다시 만들면 그만이므로 아무 이름이나 입력하세요.) 사실 Redshift라고 입력하고 Redshift DB를 제대로 연결하면 바로 과정들을 끝낼 수 있지만 저희는 Preset.io를 살펴보는 실습 중이므로 회원가입 진행후 바로 워크스페이스를 삭제할 것입니다. 정보를 대강 기입하고 Database를 선택합니다. 가장 많..

Docker 이용 설치 vs. Preset.io에 있는 서비스 사용 Docker에 익숙하고 개인컴퓨터 사양이 충분히 좋다면 Docker가 더 좋음 - 이 경우는 Superset 오픈소스를 그대로 쓰는 형태 Preset.io는 무료 Starter 플랜이 있기는 하지만 회사 이메일이 있는 경우에만 사용 가능 - Superset 오픈소스를 기반으로 변경된 버전을 사용하는 형태. 하지만 오픈소스 버전과 크게 다르지 않음 두 가지 설정 방법을 일단 모두 설명 - Preset 셋업 - Docker Superset 셋업 - (세번째 방법은) 리눅스 서버에 설치하는 것 차트/대시보드 생성 방식은 Superset 기준으로 설명 Docker란 무엇인가? 아주 쉽게 얘기하면 필요한 프로그램들을 컴퓨터의 가상환경에서 의존성이..

만들어볼 두 개의 차트와 하나의 대시보드 1. 위와 같은 Key Metrics라는 이름의 대시보드를 만들겁니다. 2. 이 대시보드는 2개의 Chart로 이루어져 있습니다. - 하나는 MAU, 다른 하나의 이름은 Cohort입니다. 3. Database로는 Redshift를 사용할겁니다. 채널별 Monthly Active User(MAU) 차트 - 입력 테이블(Dataset)은 analytics.user_session_summary Monthly Cohort 차트 - 입력 테이블(Dataset)은 analytics.cohort_summary MAU 차트 입력: user_session_summary CREATE TABLE analytics.user_session_summary AS SELECT usc.*, ..
Airbnb에서 시작된 오픈소스 Airflow를 만든 Maxim이란 사람이 같이 시작한 오픈소스 Maxim이 만든 모든 것은 파이썬 기반 (Airflow, Superset 모두) - https://github.com/apache/superset - 현재 Airbnb의 전사 대시보드가 Superset Dropbox에서 데이터 Explore 대시보드로 사용 상용화 서비스도 시작됨 - Maxim이 직접 창업 - https://preset.io/ 여기에 무료 어카운트 생성 후 실습 Superset이란? 다양한 형태의 visualization와 손쉬운 인터페이스 지원 대시보드 공유 지원 엔터프라이즈 수준의 보안과 권한(특히 Role) 제어 기능 제공 SQLAlchemy와 연동 - 다양한 데이터베이스 지원 Drui..
시각화 툴이란? 대시보드 혹은 BI(Business Intelligence)툴이라고 부르기도 함 KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴 결국은 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게 함 - 데이터 기반 결정 (Data-Driven Decision) - 데이터 참고 결정 (Data-Informed Decision) 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌 어떤 툴들이 존재하나? Excel, Google Spreadsheet: 사실상 가장 많이 쓰이는 시각화 툴 Python: 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합 Looker..