데브코스 TIL

8주차 - 2 [프로젝트] Superset 시각화와 테이블 추가

터칭 데이터 2023. 12. 5. 17:34

 

 

 

개인적으로는 차트 내용이 심심하다

 

시각화를 어떤 형태의 차트로 할까?

BI 대시보드들이 그렇듯 Superset 역시 다양한 종류의 시각화 툴을 제공한다. 프로젝트의 주제로 삼은 데이터들은 보통 라인 그래프로 그려지는 경우가 많은데 개인적으로는 조금 더 다양하고 멋있는 차트를 대시보드에 추가해보고 싶다.

 

그런데 문제가 2개가 있다. 첫번째, 각 차트 형태에 맞춰 사용해야 할 쿼리문이나 옵션들이 달라져 생각보다는 시간을 조금 많이 투자해야 한다. 두번째, 결국 프로젝트 주제에 대한 도메인 지식이 어느 정도 요구 된다는 점이다. 예를 들어 각 데이터들간의 상관관계가 존재하는지 캐치할 수 있다면 차트와 대시보드가 그만큼 더 수월하고 짜임새 있게 구현된다.

 

 

 

테이블 혹은 데이터가 늘어난다.

시각화에 대한 욕심이 생길수록 데이터를 추가하고 싶은 욕구가 생겨난다. 데이터 웨어하우스 사용법과 대시보드 연결을 전체적으로 다시 조망하고 복습하는 것이 프로젝트의 취지인 것 같은데 아무래도 최종적으로 보여줘야 할 결과물은 시각화이다 보니 대시보드 구성단계에서 작업량이 조금씩 늘어나는 중이다. 그렇다고 테이블과 데이터가 늘어난만큼 대시보드 구성이 드라마틱하게 개선되었냐고 묻는다면 현재로서는 글쎄?..

 

 

 

SQL과 데이터 전처리 싸움

BI 대시보드가 GUI로 제공되어 SQL이 관여할 부분이 적을 것이라 예상됐는데 전혀 그렇지 않다. Superset의 경우는 각 차트의 세부 설정뿐만 아니라 SQL Lab에서의 SELECT 쿼리 작성도 굉장히 많이 요구한다. 또한 상황에 따라서는 이미 전처리를 끝내고 테이블에 담긴 데이터들을 ELT 과정 등을 위해 한번 더 전처리하는 경우도 생각보다는 빈번하게 발생한다.

 

데이터 분야 커리어를 위해서는 결국 SQL 실력이 필수임을 새삼 깨닫게 된다.