터칭 데이터

맵리듀스 프로그래밍 실행 본문

하둡과 Spark

맵리듀스 프로그래밍 실행

터칭 데이터 2024. 1. 15. 21:10

 

 

맵리듀스 프로그래밍 - 단어수 세기

 

앞서 살펴본 WordCount 프로그램 실행해보기

bin/hadoop jar hadoop-*-examples.jar wordcount input output
bin/hadoop == bin/yarn

 

HDFS 입력/출력 살펴보기

bin/hdfs dfs -ls input
bin/hdfs dfs -ls output

 

하둡 Web UI (Resource Manager)로 실행 결과 살펴보기

 

데모

 

 

 

 

 

 

 

 

 

 

 

MapReduce 프로그래밍 문제점

 

생산성이 떨어짐. 데이터 모델과 오퍼레이션에 제약이 많음

 

모든 입출력이 디스크를 통해 이뤄짐

큰 데이터 배치 프로세싱에 적합

 

Shuffling 이후에 Data Skew가 발생하기 쉬움

Reduce 태스크 수를 개발자가 지정해주어야함

 

 

 

 

 

 

 

'하둡과 Spark' 카테고리의 다른 글

Spark 프로그램 실행 옵션  (0) 2024.01.15
Spark 소개  (0) 2024.01.15
하둡 설치 - 맵리듀스 프로그래밍 실행  (0) 2024.01.15
맵리듀스 프로그래밍 소개  (0) 2024.01.15
YARN의 동작방식  (0) 2024.01.15