터칭 데이터

관계형 데이터베이스 (Relational Database Management System) 본문

SQL

관계형 데이터베이스 (Relational Database Management System)

터칭 데이터 2023. 11. 12. 15:21

 

 

 

관계형 데이터베이스 (Relational Database Management System)

 

구조화된 데이터를 저장할 수 있는 것이 핵심입니다. (강점)

비구조화된 데이터를 다루는데 적합하지 않습니다. (약점)

비구조화 데이터를 다룰 수 있는 빅데이터의 부상에도 불구하고

대부분의 데이터는 구조화되어 있으므로 여전히 중요한 핵심 기술입니다.

RDBMS는 SQL(Structured Query Language)을 이용하여 데이터를 조회하고 조작합니다.

 

 

 

 

 

구조화 데이터 & 비구조화 데이터란?

 

구조화된 데이터(structured data)와 비구조화된 데이터(unstructured data)는 데이터의 형태와 조직 방식에 따라 구분됩니다.

구조화된 데이터: 이는 정의된 데이터 모델에 따라 구성되며, 일반적으로 데이터베이스 시스템에서 사용됩니다. 구조화된 데이터는 열과 행으로 구성된 테이블 형태를 가지며, 각 열은 특정 유형의 데이터(예: 이름, 나이, 주소 등)를 저장합니다. 이러한 데이터는 SQL 같은 질의 언어를 사용하여 쉽게 검색하고 조작할 수 있습니다.

비구조화된 데이터: 이는 정의된 구조가 없는 데이터를 말합니다. 이는 텍스트 문서, 이미지, 비디오, 웹 페이지, 이메일, 소셜 미디어 게시물 등이 될 수 있습니다. 비구조화된 데이터는 대량의 정보를 포함할 수 있지만, 그 정보를 검색하고 분석하는 것이 구조화된 데이터보다 훨씬 어렵습니다. 이를 위해 텍스트 분석, 데이터 마이닝, 자연어 처리 등의 기술이 필요합니다.

결국, 구조화된 데이터는 정형화되어 있어 처리가 쉽지만, 비구조화된 데이터는 그렇지 않아 처리가 어렵지만 더 많은 정보를 포함하고 있습니다.

 

 

 

 

 

 

프로덕션 데이터베이스 & 데이터 웨어하우스

 

관계형 데이터베이스는 크게 2종류로 나뉩니다.

 

두괄식으로 요약해서 설명드리자면

 

프로덕션 데이터베이스는 사용자와 빠르게 상호작용할 수 있는 서비스에 많이 쓰이며  빠른 속도에 집중합니다.

데이터 웨어하우스는 데이터 분석 혹은 모델 빌등을 위해 사용되며 저장 및 처리해야하는 데이터의 크기에 집중합니다.

 

 

프로덕션 데이터베이스: 이는 일반적으로 실시간 트랜잭션 처리를 위해 사용됩니다. 예를 들어, 웹사이트의 사용자 정보, 주문 정보 등을 실시간으로 처리하고 저장하는 데 사용됩니다. 프로덕션 데이터베이스는 OLTP(Online Transaction Processing) 시스템의 일부로, 데이터의 일관성과 실시간 처리 성능을 중요시합니다.

데이터 웨어하우스: 이는 대량의 데이터를 저장하고 분석하는 데 사용됩니다. 데이터 웨어하우스는 다양한 소스에서 데이터를 수집하고, 이를 분석하여 비즈니스 인텔리전스, 보고서 작성, 의사 결정 지원 등에 사용합니다. 데이터 웨어하우스는 OLAP(Online Analytical Processing) 시스템의 일부로, 대량의 데이터를 효율적으로 쿼리하고 분석하는 데 중점을 둡니다.

따라서, 프로덕션 데이터베이스는 일반적으로 실시간 트랜잭션 처리에, 데이터 웨어하우스는 대규모 데이터 분석에 각각 최적화되어 있습니다.

 

주니어 개발자가 흔히 웹 중심으로 프로그래밍을 배우며 만나는 MySQL, Oracle, PostgreSQL 등이 프로덕션 데이터베이스입니다. 데이터 엔지니어들이 사용하는 Redshift, Snowflake, BigQuery, Hive 등이 데이터 웨어하우스 입니다.

 

프로덕션 데이터는 소위 말하는 큰 쿼리를 날리면 시간이 오래걸리거나 상황에 따라서는 DB가 뻗어버리는 경우가 발생합니다. 본격적인 빅데이터 분석을 위해서는 데이터 웨어하우스가 필요하며 데이터 엔지니어들이 데이터 웨어하우스를 사용하는 이유입니다.

 

만일 본격적인 데이터 분석을 한다는 기업이 데이터 웨어하우스 없이 프로덕션 데이터베이스만을 사용한다면 데이터 업무를 위한 기반이 제대로 갖춰지지 않았을 가능성이 높습니다.

 

 

 

 

 

SQL은 빅데이터 세상에서도 중요!

 

구조화된 데이터를 다루는한 SQL은 데이터 규모와 상관없이 쓰임
모든 대용량 데이터 웨어하우스는 SQL 기반
Redshift, Snowflake, BigQuery, Hive

Spark이나 Hadoop도 예외는 아님
SparkSQL과 Hive라는 SQL 언어가 지원됨

데이터 분야에서 일하고자 하면 반드시 익혀야할 기본 기술
데이터 엔지니어, 데이터 분석가, 데이터 과학자 모두 알아야함

 

 

 

 

 

 

'SQL' 카테고리의 다른 글

Redshift SELECT  (0) 2023.11.14
Redshift Cluster 생성 & Colab에 연결  (0) 2023.11.14
Redshift: Scalable SQL 엔진  (0) 2023.11.12
클라우드와 AWS  (0) 2023.11.12
데이터 웨어하우스  (0) 2023.11.12