목록데이터 웨어하우스(Data Warehouse) (40)
터칭 데이터

Marketplace ETL과 관련된 기능입니다. Marketplace에서 원하는 특정 기업 데이터 소스를 선택해 조금의 비용만 지불하고 Configuration setup을 해주면 특정 DB의 스키마의 테이블별로 데이터가 저장됩니다. ETL을 위한 코딩이 최소화되겠죠? 문제는 아직 기술상의 이슈들이 조금 있고 간단한 경우에만 사용될 수 있습니다. Data Sharing 우리가 지난 실습에서 Snowflake를 처음 접속했을 때 데이터 베이스 2개가 이미 만들어져 있었습니다. 이 때 있던 SNOWFLAKE와 SNOWFLAKE_SAMPLE_DATA는 사실 Snowflake가 우리에게 공유해준 데이터 베이스입니다. 그래서 읽거나 읽어온 뒤 활용하는 것은 몰라도 저 DB들에 무언가를 쓰거나 수정할 수는 없습니..

Data Governance란? 필요한 데이터가 적재적소에 올바르게 사용됨을 보장하기 위한 데이터 관리 프로스세입니다. 데이터의 품질 보장과 데이터 관련된 법규를 준수하는 것이 기능의 주 목적입니다. 다음을 이룩하기 위함이 기본 목적 1. 데이터 기반 결정에서 일관성 ex) KPI(Key Performance Indicator)등의 지표가 우리의 상황을 정확하게 나타내고 있는가 2. 데이터를 이용한 가치 만들기 Citizen data scientist가 더 효율적으로 일할 수 있게 도와주기 Data silos(특정 부서의 데이터 독점)를 없애기 3. 데이터 관련 법규 준수 민감한 개인 정보 보호를 위해 적절한 권한 설정과 보안 프로세스가 필수! Snowflake의 관련 기능 Object Tagging D..

혹시 저번에 Reshift 권한 부여 실습 기억나시나요? https://touchingdata.tistory.com/149 Redshift 권한 사용자별 테이블 권한 설정 https://touchingdata.tistory.com/144 Redshift 초기 설정개념과 실습 Redshift 초기 설정 Redshift를 처음 구동하면 스키마, 그룹, 유저, 역할 등을 생성해야 합니다. 이에 대해 알아보 touchingdata.tistory.com 이 때 Group(그룹)과 Role(역할)에서 Group만 실습해보았는데요. 말씀드렸던 것 처럼 이번에 Snowflake 실습에서 Role을 사용해보기 위해서였습니다. Snowfalke는 최근에 나온 기술이기 때문에 더 유연하고 강력한 기능을 제공합니다. 때문에 ..

실습의 단계별 목표 1. DEV 데이터 베이스 만들기 2. 3개의 스키마 만들기 3. COPY SQL을 이용해 S3의 csv파일들을 벌크 업데이트하여 raw_data 스키마 밑에 테이블들 만들기 4. 그 과정에서 AWS IAM User(사용자)를 설정 5. analytics 스키마 밑에 summary 테이블을 만들기 이번 시간에는 위의 볼드체로 표시된 1, 2, 3, 5번을 실습해 보려합니다. Snowflake의 Setup-Env Worksheet에서 실행합니다. 1. DEV 데이터 베이스 만들기 CREATE DATABASE dev; 2. 3개의 스키마 만들기 -- 먼저 3개의 스키마를 생성한다. CREATE SCHEMA dev.raw_data; CREATE SCHEMA dev.analytics; CRE..

실습의 단계별 목표 1. DEV 데이터 베이스 만들기 2. 3개의 스키마 만들기 3. COPY SQL을 이용해 S3의 csv파일들을 벌크 업데이트하여 raw_data 스키마 밑에 테이블들 만들기 4. 그 과정에서 AWS IAM User(사용자)를 설정 5. analytics 스키마 밑에 summary 테이블을 만들기 이번 시간에는 위의 볼드체로 표시된 4번을 실습해 보려합니다. 아마 의문이 드실 겁니다. Snowflake 실습에서 웬 AWS IAM? Snowflake에서 COPY를 이용해 AWS S3의 파일들을 벌크 업데이트할 수 있다고 했었습니다. 그런데 Snowflake라는 외부에서 AWS S3에 접근하기 위해서는 AWS IAM에서 새로운 User(사용자)를 만들고 이 사용자의 Access key와 ..

Worksheets에 대한 간단한 기능들 AcoountAdmin의 역할인 상태에서 Worksheets 메뉴를 클릭한 후 SQL Worksheet를 추가합니다. 그 다음 Worksheets를 클릭하면 타임 스탬프 형태의 이름으로 새로운 worksheet가 생성된 것을 볼 수 있으실 겁니다. Rename을 클릭해 Setup-Env로 변경 해주세요. 상단 좌측의 버튼은 어떤 역할과 어떤 웨어하우스 리소스를 사용할지 선택할 수 있습니다. 가운데 버튼은 내가 작업중인 Worksheet를 다른 사람과 공유하고 싶을 때 클릭합니다. 우측의 삼각형 버튼은 하이라이트된 부분 혹은 커서가 있는 부분 혹은 모든 쿼리를 실행할지 선택할 수 있습니다. 그리고 어떤 Database를 사용하는지 선택할 수 있는 드랍다운 메뉴가 있..

내 Account안의 Databases 확인 빨간색 박스의 Data의 Databases 메뉴를 클릭하면 데이터 베이스 목록들을 확인할 수 있습니다. 지난 Snowflake 개념 시간에 Snowflake는 Account 생성과 동시에 2개의 DB를 자동으로 생성한다고 했었죠? 파란색 박스의 SNOWFLAKE와 SNOWFLAKE_SAMPLE_DATA 두개의 DB가 바로 그것입니다. 각 DB 안에는 초록색 박스와 같은 스키마가 들어있고 각 스키마 안에는 주황색 박스와 같은 테이블들이 들어있습니다. AWS Redshift와 거의 다를게 없습니다. 뒤의 실습에서 DEV라는 이름의 데이터 베이스를 한번 추가해보겠습니다. 내 Account안의 Warehouses 확인 Snowflake는 데이터 베이스라는 스토리지와 ..

Snowflake 30일 무료 시험판 시작 30일 혹은 최대 $400까지 사용 가능하며 기간이 자나거나 $400를 모두 사용하면 자동으로 suspended 됩니다. 이후 더 계속 비용을 지불하고 사용하고 싶다면 그 때 신용카드 정보를 입력하면 됩니다. 모든 정보를 입력해주세요. Standard 에디션을 선택해주세요. 클라우드 공급자는 지난 실습 Redshift serverless를 사용해 AWS로 선택했습니다. 각자 본인이 필요한대로 선택하셔도 괜찮습니다. 지역은 서울을 선택했습니다. 가입이유, 사용목적, 선호하는 언어 등을 물어보는데 대충 작성하셔도 상관없습니다. 전송 버튼을 눌러주시면 아까 기입했던 이메일 주소로 메일이 하나 도착할 것입니다. 메일의 내용은 위와 같습니다. CLICK TO ACTIVA..

Snowflake 소개 2014년에 클라우드 기반 데이터웨어하우스로 시작됨 (2020년 상장) 지금은 데이터 클라우드라고 부를 수 있을 정도로 발전 글로벌 클라우드위에서 모두 동작 (AWS, GCP, Azure) - 멀티클라우드 데이터 판매를 통한 매출을 가능하게 해주는 Data Sharing/Marketplace 제공하는데 데이터 웨어하우스끼리의 데이터 공유를 매우 간단하게 만들었기 때문입니다. ETL과 다양한 데이터 통합 기능 제공 Snowflake 특징 스토리지와 컴퓨팅 인프라가 별도로 설정되는 가변 비용 모델 Redshift 고정비용처럼 노드 수를 조정할 필요가 없고 distkey등의 최적화 불필요 SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌 Redshift ML과 비슷합니다. 비..

중지라는 것은 고정비용에만 존재합니다. Redshift 관련 유지보수 Redshift(고정비용) 서비스는 주기적으로 버전 업그레이드를 위해 중단됩니다. 1~2주에 한번 10~30분 정도 Maintenance window로 서비스를 중단시키고 restart합니다. AWS web console에서 주기를 확인할 수 있습니다. 그 시간대를 피해 작업을 하는 것을 권장합니다. 참고로 Serverless에는 이게 존재하지 않습니다. 테이블 청소와 최적화 - VACUUM 명령 VACUUM을 주기적으로 해주면 좋습니다. 또 여러 파라미터로 다양한 기능을 사용할 수 있습니다. 테이블 데이터 정렬: Redshift 테이블에 데이터가 삽입, 업데이트 또는 삭제될 때 데이터는 불규칙하게 분산되어 저장될 수 있는데 VACUU..