터칭 데이터

Redshift Cluster 생성 & Colab에 연결 본문

SQL

Redshift Cluster 생성 & Colab에 연결

터칭 데이터 2023. 11. 14. 11:29

 

 

클러스터 생성

 

AWS의 신규회원으로 가입해 $300의 무료 크레딧을 받을 수 있는 사용자를 기준으로 설명합니다.

 

 

먼저 AWS에 회원가입을 진행합니다.

 

 

 

 

우측 상단에서 사용할 서버의 지역을 선택할 수 있습니다. 미국이 오리곤이 저렴하다고 하지만 저는 최대한 강의 내용을 따라가기 위해 서울로 선택했습니다.

 

 

 

 

 

그리고 서비스 검색에서 Redshift를 검색해 선택합니다.

 

 

 

 

네임스페이스, IAM 그 어떤 것도 손대지 않고 초기 선택된 디폴트 옵션으로 Serverless 클러스터를 생성했습니다.

 

 

 

 

 

 

 

이제 콘솔 홈에서 생성한 클러스터를 방문하여

 

 

 

 

 

 

 

무료 평가판의 크레딧이 얼마나 남았고 언제 만료되는지 확인할 수 있습니다.

 

 

 

 

Google Colab 연동

 

 

 

Serverless 대시보드에서 작업 그룹을 클릭합니다.

 

 

 

 

 

 

편집을 눌러 퍼블릭 액세스(Publicly access)를 허용해주세요.

 

 

 

 

 

그리고 파란색 박스로 가려진 부분의 링크를 클릭합니다.

 

 

 

 

 

 

그리고 위와 같이 표시한 순서대로 클릭해 인바운드 규칙 편집 페이지로 이동합니다.

 

 

 

 

 

규칙을 추가하고 포트번호를 5439로 입력, 접근 가능한 IP를 0.0.0.0/0으로 설정한 뒤 규칙을 저장합니다.

 

참고로 5439는 AWS Redshift의 디폴트 포트 번호 입니다.

 

 

 

 

 

이제 구글 코랩(Google Colab)에서 우리가 만든 AWS Redshift를 연결해 사용하려면

 

%load_ext sql

 

먼저 위와 같이 SQL을 사용하기 위한 명령을 실행하고

 

 

%sql postgresql://admin:password@endpoint

 

위에서

admin에 본인이 설정한 관리자 계정명을

password에는 관리자 암호를

endpoint에는 http를 제외한 엔드포인트 주소를 입력합니다.

(postgresql이 나오는 이유는 Red shift는 postgresql 8.x와 호환되기 때문 이라고 말씀 드렸습니다.)

 

 

 

 

 

Redshift 대시보드에서 네임스페이스 링크를 클릭합니다.

 

그리고 보시다시피 상태가 Modifying이 아닌 Available이어야 합니다.

 

 

 

 

그리고 오른쪽을 보면 위와 같이 관리자 사용자 이름을 확인할 수 있습니다.

이 것이 admin에 들어갈 이름입니다.

 

 

 

 

 

 

 

엔드 포인트는 작업 그룹의 링크를 클릭하시고

 

 

 

 

엔드포인트를 그대로 복사해 붙여 넣으시면 됩니다.

 

 

 

 

%sql postgresql://admin:password@endpoint

 

그렇게 확인한 admin, password, endpoint를 위에 입력하셔서 실행하셨을 때 에러 없이 정상수행 되었다면 우리가 만든 AWS Redshift환경을 Google Colab에서도 정상 접근할 수 있게 된 것 입니다.

 

 
 
 

 

 

 

 

 

 
 

'SQL' 카테고리의 다른 글

Redshift - GROUP BY & Aggregate 함수  (0) 2023.11.15
Redshift SELECT  (0) 2023.11.14
Redshift: Scalable SQL 엔진  (0) 2023.11.12
클라우드와 AWS  (0) 2023.11.12
데이터 웨어하우스  (0) 2023.11.12