데브코스 TIL
8주차 - 1 [프로젝트] Redshift 크레딧 소모에 대해
터칭 데이터
2023. 12. 4. 17:59
프로젝트를 진행 중 봉착한 크레딧 관련 난관들
1. Redshift 크레딧이 부족하다.
테이블의 크기가 크지 않고 복잡한 JOIN이 없었음에도 쿼리문이 크레딧을 굉장히 많이 소모한다. 팀원 중 누군가의 Redshift 서버 하나를 다수의 팀원들이 사용하는 것은 무리일 것 같다. 다른 팀의 조원분들께 여쭤보니 Redshift 크레딧 때문에 고민이 많은 것 같다.
2. Superset에서의 차트 생성도 크레딧을 소모한다.
Superset 새로고침과 세부설정에서의 몇번의 클릭도 SELECT로 간주되어 Redshift의 크레딧을 팍팍 소모한다. 데이터 전처리와 테이블 피봇보다 BI 대시보드에서의 쿼리문이 데이터 웨어하우스에 더 부담이 되는 모양.
3. 어떻게 대처할까?
첫번째, 데이터 전처리를 끝낸 테이블들을 개별적으로 csv 파일로 만들고 이를 각자가 다운로드 받은 다음 Redshift 서버에서 COPY로 벌크업데이트해 각자의 파트를 진행한다. 대신 데이터 수집과 전처리를 매우 빠르게 끝내야 한다. 또한 데이터의 크기가 너무 커서는 안된다.
두번째, 로컬 DB를 Superset 등의 대시보드에 연결해 사용한다. 다만 로컬 DB는 대부분 프로덕션 데이터 베이스이므로 데이터 웨어하우스와의 성능차가 있음을 조금 감안해야 한다. (예를 들어 csv파일 COPY 벌크 업데이트와 NULL 처리 등)
세번째, Tableau를 사용한다. csv 파일을 업로드해서 시각화를 할 수 있다고 한다. 다만 Github와 마찬가지로 무료버전의 경우 모든 결과물을 공개해야 한다는 점