목록하둡과 Spark (42)
터칭 데이터
요약 AWS에서 Spark은 EMR의 일부로 동작 EMR상의 Spark 잡은 YARN 클러스터 모드로 실행

Contents 1. AWS Spark 클러스터 론치 2. AWS Spark 클러스터 상에서 PySpark 잡 실행 AWS Spark 클러스터 상에서 PySpark 잡 실행 AWS Spark 클러스터 상에서 PySpark 잡을 실행해보자 PySpark 잡 실행 과정 Spark 마스터노드에 SSH로 로그인 이를 위해 마스터노드의 TCP 포트번호 22번을 오픈해야함 spark-submit을 이용해서 실행하면서 디버깅 두 개의 잡을 AWS EMR 상에서 실행해 볼 예정 입력 데이터를 S3로 로딩 Stackoverflow 2022년 개발자 서베이 CSV 파일을 S3 버킷으로 업로드 익명화된 83,339개의 서베이 응답 s3://spark-tutorial-dataset/survey_results_public.cs..

Contents 1. AWS Spark 클러스터 론치 2. AWS Spark 클러스터 상에서 PySpark 잡 실행 AWS Spark 클러스터 론치 AWS EMR을 통해 Spark 클러스터를 론치해보자 AWS에서 Spark을 실행하려면 EMR (Elastic MapReduce) 위에서 실행하는 것이 일반적 EMR이란? ● AWS의 Hadoop 서비스 (On-demand Hadoop) ▪ Hadoop (YARN), Spark, Hive, Notebook 등등이 설치되어 제공되는 서비스 ● EC2 서버들을 worker node로 사용하고 S3를 HDFS로 사용 ● AWS 내의 다른 서비스들과 연동이 쉬움 (Kinesis, DynamoDB, Redshift, …) Spark on EMR 실행 및 사용 과정 A..
Contents 1. AWS Spark 클러스터 론치 2. AWS Spark 클러스터 상에서 PySpark 잡 실행
요약 Spark 파일 포맷으로 가장 최적은 PARQUET Spark Job 최적화를 위해서는 Execution Plan 확인 Bucketing과 Partitioning을 통해 입력 데이터 구조를 최적화

Contents 1. Spark 파일 포맷 Parquet, Avro, csv, json 2. Execution Plan Spark이 우리가 만든 코드를 어떻게 실행할 지 보겠습니다. Action과 Transformation의 차이를 살펴봅니다. 하나의 액션이 하나의 잡이고 하나의 잡이 다수의 스테이지를 만들 수 있고 하나의 스테이지가 다수의 태스크를 만들 수 있습니다. 그리고 이런 Execution Plan을 Spark Web UI로 살펴볼 수 있습니다. 3. Bucketing과 Partitioning 데이터를 처리하기 쉬운 형태로 HDFS에 저장하는 방식에 대해 살펴보겠습니다. Bucketing과 Partitioning HDFS 데이터를 처리 형태에 맞춰 최적화할 수 있다면 처리 시간을 단축하고 리소스..

Contents 1. Spark 파일 포맷 Parquet, Avro, csv, json 2. Execution Plan Spark이 우리가 만든 코드를 어떻게 실행할 지 보겠습니다. Action과 Transformation의 차이를 살펴봅니다. 하나의 액션이 하나의 잡이고 하나의 잡이 다수의 스테이지를 만들 수 있고 하나의 스테이지가 다수의 태스크를 만들 수 있습니다. 그리고 이런 Execution Plan을 Spark Web UI로 살펴볼 수 있습니다. 3. Bucketing과 Partitioning 데이터를 처리하기 쉬운 형태로 HDFS에 저장하는 방식에 대해 살펴보겠습니다. Execution Plan Spark은 개발자가 만든 코드를 어떻게 변환하여 실행하는가? WordCount 코드 spark =..

Contents 1. Spark 파일 포맷 Parquet, Avro, csv, json 2. Execution Plan Spark이 우리가 만든 코드를 어떻게 실행할 지 보겠습니다. Action과 Transformation의 차이를 살펴봅니다. 하나의 액션이 하나의 잡이고 하나의 잡이 다수의 스테이지를 만들 수 있고 하나의 스테이지가 다수의 태스크를 만들 수 있습니다. 그리고 이런 Execution Plan을 Spark Web UI로 살펴볼 수 있습니다. 3. Bucketing과 Partitioning 데이터를 처리하기 쉬운 형태로 HDFS에 저장하는 방식에 대해 살펴보겠습니다. Execution Plan Spark은 개발자가 만든 코드를 어떻게 변환하여 실행하는가? 다음 데이터 프레임 연산을 자세히 보..

Contents 1. Spark 파일 포맷 Parquet, Avro, csv, json 2. Execution Plan Spark이 우리가 만든 코드를 어떻게 실행할 지 보겠습니다. Action과 Transformation의 차이를 살펴봅니다. 하나의 액션이 하나의 잡이고 하나의 잡이 다수의 스테이지를 만들 수 있고 하나의 스테이지가 다수의 태스크를 만들 수 있습니다. 그리고 이런 Execution Plan을 Spark Web UI로 살펴볼 수 있습니다. 3. Bucketing과 Partitioning 데이터를 처리하기 쉬운 형태로 HDFS에 저장하는 방식에 대해 살펴보겠습니다. Spark 파일포맷 Spark에서 사용가능한 파일 포맷을 알아보자 데이터는 디스크에 파일로 저장됨: 일에 맞게 최적화 필요 S..
Contents 1. Spark 파일 포맷 Parquet, Avro, csv, json 2. Execution Plan Spark이 우리가 만든 코드를 어떻게 실행할 지 보겠습니다. Action과 Transformation의 차이를 살펴봅니다. 하나의 액션이 하나의 잡이고 하나의 잡이 다수의 스테이지를 만들 수 있고 하나의 스테이지가 다수의 태스크를 만들 수 있습니다. 그리고 이런 Execution Plan을 Spark Web UI로 살펴볼 수 있습니다. 3. Bucketing과 Partitioning 데이터를 처리하기 쉬운 형태로 HDFS에 저장하는 방식에 대해 살펴보겠습니다.