[de] Spark on hadoop

[de] Spark on hadoop

2023. 9. 10. 00:48ㆍdata engineer/big data

준비사항: linux기반 가상머신에 java 11, python3, haddop3.3.6 설치

목표: 하둡에 파이스파크 연결하기 (터미널에서 진행)

설정할 내용

스파크 다운 및 압축해제(심볼릭 링크 걸기)
workers.template 복제
spark.env.sh.template 복제 후 경로 설정
spark-defaults.conf.template 복제 후 master설정
spark 실행 시 start-all.sh와 종료시 stop-all.sh 명령어

1. 스파크 (3.2.4 ver)

benefit of symbolic link: 여러 버전을 사용할때 일일히 bash설정을 바꾸지 않고도 다양한 버전을 사용할 수 있음


  
    
    
    
    
  
wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4-bin-without-hadoop.tgz

#압축해제
tar xvzf spark-3.2.4-bin-without-hadoop.tgz

#심볼릭 링크 설정
ln -s spark-3.2.4-bin-without-hadoop spark
ls -l

2. spark home에 들어가서 3-5 단계 진행


  
    
    
    
    
  
cd $SPARK_HOME/conf
ls

cp workers.template workers
cp spark-env.sh.template spark-env.sh #copy
vim spark env.sh

각 vim에 들어갈 내용

vim workers	workers가 localhost로 설정되어있는지 확인
vim spark-env.sh	spark 관련 경로 설정
vim spark-defaults.conf	하둡과 스파크를 연결했기 때문에 하둡 관리자인 yarn 을 master로 지정

기본 계정명은 guest로 설정했습니다.


  
    
    
    
    
  
cd $SPARK_HOME/conf
ls

//복제
cp workers.template workers
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf

//vim 내용
vim workers 

vim spark-env.sh
export JAVA_HOME=/home/guest/java
export HADOOP_CONF_DIR=/home/guest/hadoop/etc/hadoop
export YARN_CONF_DIR=/home/guest/hadoop/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/home/guest/hadoop/bin/hadoop classpath)

export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3

//맨 하단에 내용추가
vim spark-defaults.conf
spark.master     yarn

spark 실행 명령어


  
    
    
    
    
  
//hadoop 실행
start-all.sh
jps
hdfs dfsadmin -report

//spark 실행
pyspark

저작자표시 비영리 동일조건

'data engineer > big data' 카테고리의 다른 글

[de] Hadoop 설치 (0)	2023.09.05

[de] Hadoop 설치 2023.09.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

brainzzang

brainzzang

태그

최근글

댓글

공지사항

아카이브

'data engineer > big data' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역