전체 글 373

Local Standalone REP 데모 - 윈도우(Windows)

Contents 1. Spark 데이터 처리 2. Spark 데이터 구조: RDD, DataFrame, Dataset 3. 프로그램 구조 4. 개발/실습 환경 소개 5. Spark DataFrame 실습 개발/실습 환경 소개 Spark 개발 환경에 대해 알아보자 https://github.com/keeyong/beginner-spark-programming-with-pyspark/blob/main/spark/local_installation_windows.md 자바와 파이썬 설치여부와 버전 확인 java -version python --version 윈도우 10 + 기반 JDK11과 파이썬 3.8 혹은 그 이상을 설치 폴더 만들기 SPARK 3.0 설치 https://spark.apache.org/dow..

하둡과 Spark 2024.01.16

Local Standalone REP 데모 - 맥(Mac)

Contents 1. Spark 데이터 처리 2. Spark 데이터 구조: RDD, DataFrame, Dataset 3. 프로그램 구조 4. 개발/실습 환경 소개 5. Spark DataFrame 실습 개발/실습 환경 소개 Spark 개발 환경에 대해 알아보자 Mac에서 Local Standalone Spark 사용 Mac Catalina 혹은 이후 버전 기준 Z쉘이 기본으로 사용됨 (그전에는 Bash 쉘) 자바 관련 설정 JDK8/11이 필요: 터미널에서 java -version 명령으로 체크 JAVA_HOME 환경변수를 Z쉘 시작 스크립트(~/.zshrc)에 등록 - echo export "JAVA_HOME=\$(/usr/libexec/java_home)" >> ~/.zshrc Spark 다운로드 ..

하둡과 Spark 2024.01.16

개발환경소개 Colab 설정과 코딩 데모

Contents 1. Spark 데이터 처리 2. Spark 데이터 구조: RDD, DataFrame, Dataset 3. 프로그램 구조 4. 개발/실습 환경 소개 5. Spark DataFrame 실습 개발/실습 환경 소개 Spark 개발 환경에 대해 알아보자 Spark 개발 환경 옵션 Local Standalone Spark + Spark Shell Python IDE – PyCharm, Visual Studio Databricks Cloud – 커뮤니티 에디션을 무료로 사용 다른 노트북 – 주피터 노트북, 구글 Colab, 아나콘다 등등 구글 Colab을 기본 환경으로 사용하고 간혹 Local Standalone 모드를 사용할 예정 Local Standalone Spark Spark Cluster ..

하둡과 Spark 2024.01.16

Spark 프로그램 구조

Contents 1. Spark 데이터 처리 2. Spark 데이터 구조: RDD, DataFrame, Dataset 3. 프로그램 구조 4. 개발/실습 환경 소개 5. Spark DataFrame 실습 프로그램 구조 Spark Session 생성과 설정에 대해서 알아보고 Spark 프로그램의 일반적인 구조에 대해 알아보자 Spark Session 생성 Spark 프로그램의 시작은 SparkSession을 만드는 것 프로그램마다 하나를 만들어 Spark Cluster와 통신: Singleton 객체 Spark 2.0에서 처음 소개됨 Spark Session을 통해 Spark이 제공해주는 다양한 기능을 사용 DataFrame, SQL, Streaming, ML API 모두 이 객체로 통신 config 메소..

하둡과 Spark 2024.01.16

Spark 데이터 구조: RDD, DataFrame, Dataset

Contents 1. Spark 데이터 처리 2. Spark 데이터 구조: RDD, DataFrame, Dataset 3. 프로그램 구조 4. 개발/실습 환경 소개 5. Spark DataFrame 실습 Spark 데이터 구조: RDD, DataFrame, Dataset Spark 프로그래밍: 기본 데이터 포맷들에 대해 알아보자 Spark 데이터 구조 RDD, DataFrame, Dataset (Immutable Distributed Data) 2016년에 DataFrame과 Dataset은 하나의 API로 통합됨 모두 파티션으로 나뉘어 Spark에서 처리됨 RDD는 상대적으로 로우 레벨 DataFrame과 Dataset은 상대적으로 하이 레벨 RDD가 가장 밑, DataFrame과 Dataset은 그 ..

하둡과 Spark 2024.01.16

Spark 데이터 처리

Contents 1. Spark 데이터 처리 2. Spark 데이터 구조: RDD, DataFrame, Dataset 3. 프로그램 구조 4. 개발/실습 환경 소개 5. Spark DataFrame 실습 Spark 데이터 처리 Spark 데이터 처리의 기본이 되는 파티션에 대해 알아보자 Spark 데이터 시스템 아키텍처 데이터 병렬처리가 가능하려면? 데이터가 먼저 분산되어야함 하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록 (128MB) - hdfs-site.xml에 있는 dfs.block.size 프로퍼티가 결정 Spark에서는 이를 파티션 (Partition)이라 부름. 파티션의 기본크기도 128MB - spark.sql.files.maxPartitionBytes: HDFS등에 있는 파일을 ..

하둡과 Spark 2024.01.16

Spark 프로그램 실행 옵션

Spark 프로그램 실행 옵션 Spark 프로그램을 실행하는 방법에 대해 먼저 살펴보자 Spark을 YARN 위에서 실행한다고 가정하고 설명하겠습니다. Spark 프로그램 실행 환경 개발/테스트/학습 환경 (Interactive Clients) 노트북 (주피터, 제플린) Spark Shell 프로덕션 환경 (Submit Job) spark-submit (command-line utility): 가장 많이 사용됨 데이터브릭스 노트북: - 노트북 코드를 주기적으로 실행해주는 것이 가능 REST API: - Spark Standalone 모드에서만 가능 - API를 통해 Spark 잡을 실행 - 실행코드는 미리 HDFS등의 파일 시스템에 적재되어 있어야함 Spark 프로그램의 구조 Driver 실행되는 코드의..

하둡과 Spark 2024.01.15