전체 글 373

8주차 - 2 [프로젝트] Superset 시각화와 테이블 추가

시각화를 어떤 형태의 차트로 할까? BI 대시보드들이 그렇듯 Superset 역시 다양한 종류의 시각화 툴을 제공한다. 프로젝트의 주제로 삼은 데이터들은 보통 라인 그래프로 그려지는 경우가 많은데 개인적으로는 조금 더 다양하고 멋있는 차트를 대시보드에 추가해보고 싶다. 그런데 문제가 2개가 있다. 첫번째, 각 차트 형태에 맞춰 사용해야 할 쿼리문이나 옵션들이 달라져 생각보다는 시간을 조금 많이 투자해야 한다. 두번째, 결국 프로젝트 주제에 대한 도메인 지식이 어느 정도 요구 된다는 점이다. 예를 들어 각 데이터들간의 상관관계가 존재하는지 캐치할 수 있다면 차트와 대시보드가 그만큼 더 수월하고 짜임새 있게 구현된다. 테이블 혹은 데이터가 늘어난다. 시각화에 대한 욕심이 생길수록 데이터를 추가하고 싶은 욕구..

데브코스 TIL 2023.12.05

8주차 - 1 [프로젝트] Redshift 크레딧 소모에 대해

프로젝트를 진행 중 봉착한 크레딧 관련 난관들 1. Redshift 크레딧이 부족하다. 테이블의 크기가 크지 않고 복잡한 JOIN이 없었음에도 쿼리문이 크레딧을 굉장히 많이 소모한다. 팀원 중 누군가의 Redshift 서버 하나를 다수의 팀원들이 사용하는 것은 무리일 것 같다. 다른 팀의 조원분들께 여쭤보니 Redshift 크레딧 때문에 고민이 많은 것 같다. 2. Superset에서의 차트 생성도 크레딧을 소모한다. Superset 새로고침과 세부설정에서의 몇번의 클릭도 SELECT로 간주되어 Redshift의 크레딧을 팍팍 소모한다. 데이터 전처리와 테이블 피봇보다 BI 대시보드에서의 쿼리문이 데이터 웨어하우스에 더 부담이 되는 모양. 3. 어떻게 대처할까? 첫번째, 데이터 전처리를 끝낸 테이블들을 ..

데브코스 TIL 2023.12.04

최종 정리

최종 정리 클라우드 데이터웨어하우스의 기능은 대동소이 하지만 다양한 관점에서 봤을 때 Snowflake, BigQuery, Redshift의 순으로 추천 가변비용 모델이 일반적으로 고정비용 모델보다 더 큰 데이터 처리 가능 작은 회사이고 비용이 중요하다면 Redshift 가변비용이 더 좋음 데이터 활용이 늘어나면 데이터 품질 유지와 개인정보 보호가 중요 데이터 민주화와 데이터 탈중앙화는 거스를 수 없는 트렌드 “데이터 거버넌스"는 데이터 품질 유지와 개인정보 보호를 보장하기 위한 프로세스 대시보드 기술적인 분석 중심 대시보드 기술과 아닌 것 존재 - 후자가 Tableau, Looker, Power BI, Superset 등등 -> KPI/지표 대시보드 - 전자는 Mode Analytics, Python ..

Superset - Cohort 차트 만들고 대시보드 구성하기

이번 시간에는 Cohort 차트를 만들고 이전에 만든 MAU 차트와 합쳐 하나의 대시보드를 만들려고 합니다. 이 섹션에서 할 일 요약 1. Dataset (cohort_summary 테이블) 임포트하기 2. Cohort 차트 만들기 (Pivot도 사용) 2개의 차트를 만들어 볼텐데 실무에서는 2번 형태로 만드는 것이 더 일반적입니다. 3. Cohort 차트로 일단 대시보드 생성 4. MAU 차트를 대시보드에 추가 1. cohort_summary 테이블을 Dataset으로 추가 2. 1번 차트 생성: Cohort 저희가 첫 번째로 만들어볼 차트 모양입니다. pivot 타입을 선택할겁니다. (현재 Pivot Table(legacy)는 사라졌습니다.) 위와 같이 입력하고 CREATE CHART를 누릅니다. 1..

Superset- Redshift 설정하고 MAU 차트 만들기

이 섹션에서 할 일 1. Redshift Database Connection 설정(앞서 Preset에서 한 일을 Docker에서도 해볼 예정) 2. analytics 스키마의 user_session_summary 테이블을 Dataset으로서 임포트하기 Superset에서 임포트(import)란 Dataset의 모든 레코드들을 Superset으로 가져온다는 것이 아니라 메타정보만 이 곳에 있고 연산을 할 때마다 가서 읽어오는 방식입니다. 3. 아래와 같은 MAU 차트 만들고 저장하기 1. Database Connection 설정 우측 상단의 Settings에서 Database Connections를 클릭하면 위와 같은 화면으로 가실 수 있습니다. 현재는 Docker에 Superset을 설치하며 같이 제공된..

Superset - Docker 실행

https://superset.apache.org/docs/installation/installing-superset-using-docker-compose/ Installing Locally Using Docker Compose | Superset Installing Superset Locally Using Docker Compose superset.apache.org 상단의 Superset 공식 문서를 참고해 Docker에서 Superset을 실행해보겠습니다. 1. 먼저 터미널 프로그램을 실행합니다. 저는 Git Bash를 사용했습니다. 2. 그리고 적당한 곳에 디렉토리(폴더)를 하나 만들어주세요. 저는 용량이 큰 D드라이브에 dev_KDT라는 이름의 폴더를 생성했습니다. 3. Superset Gith..

Superset - Docker 설치

Docker 설치 https://docs.docker.com/desktop/install/windows-install/ Install Docker Desktop on Windows Get started with Docker for Windows. This guide covers system requirements, where to download, and instructions on how to install and update. docs.docker.com 파란색 Docker Desktop for Windows 버튼을 클릭합니다. 혹은 Docker 공식홈페이지에서 Docs로 접속합니다. Download and install을 클릭합니다. Docker Desktop for Windows를 선택합니다. 파..

Superset - Preset 셋업

Preset.io 회원가입 Sign up for free로 회원가입을 진행합니다. Gmail로 회원가입을 진행하겠습니다. 무료 체험은 14일입니다. 참고로 우리는 현재 실습중이므로 회사 이름은 대충 입력하셔도 좋습니다. (저는 현재 다니는 회사가 없으므로 no라는 이름으로 기입했습니다..) 그리고 일단 workspace 이름을 필수적으로 기입하라는데 no라고 입력했습니다. (나중에 삭제하고 다시 만들면 그만이므로 아무 이름이나 입력하세요.) 사실 Redshift라고 입력하고 Redshift DB를 제대로 연결하면 바로 과정들을 끝낼 수 있지만 저희는 Preset.io를 살펴보는 실습 중이므로 회원가입 진행후 바로 워크스페이스를 삭제할 것입니다. 정보를 대강 기입하고 Database를 선택합니다. 가장 많..

Superset 설치 방법 - Docker란?

Docker 이용 설치 vs. Preset.io에 있는 서비스 사용 Docker에 익숙하고 개인컴퓨터 사양이 충분히 좋다면 Docker가 더 좋음 - 이 경우는 Superset 오픈소스를 그대로 쓰는 형태 Preset.io는 무료 Starter 플랜이 있기는 하지만 회사 이메일이 있는 경우에만 사용 가능 - Superset 오픈소스를 기반으로 변경된 버전을 사용하는 형태. 하지만 오픈소스 버전과 크게 다르지 않음 두 가지 설정 방법을 일단 모두 설명 - Preset 셋업 - Docker Superset 셋업 - (세번째 방법은) 리눅스 서버에 설치하는 것 차트/대시보드 생성 방식은 Superset 기준으로 설명 Docker란 무엇인가? 아주 쉽게 얘기하면 필요한 프로그램들을 컴퓨터의 가상환경에서 의존성이..