[de] Spark on hadoop

2023. 9. 10. 00:48data engineer/big data

준비사항: linux기반 가상머신에 java 11, python3, haddop3.3.6 설치  

목표: 하둡에 파이스파크 연결하기 (터미널에서 진행)

 

설정할 내용

  1. 스파크 다운 및 압축해제(심볼릭 링크 걸기)
  2. workers.template 복제
  3. spark.env.sh.template 복제 후 경로 설정
  4. spark-defaults.conf.template 복제 후 master설정
  5. spark 실행 시 start-all.sh와 종료시 stop-all.sh 명령어

 

1. 스파크 (3.2.4 ver)

benefit of symbolic link: 여러 버전을 사용할때 일일히 bash설정을 바꾸지 않고도 다양한 버전을 사용할 수 있음 


  
wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4-bin-without-hadoop.tgz
#압축해제
tar xvzf spark-3.2.4-bin-without-hadoop.tgz
#심볼릭 링크 설정
ln -s spark-3.2.4-bin-without-hadoop spark
ls -l

 

2. spark home에 들어가서 3-5 단계 진행


  
cd $SPARK_HOME/conf
ls
cp workers.template workers
cp spark-env.sh.template spark-env.sh #copy
vim spark env.sh

각 vim에 들어갈 내용

vim workers workers가 localhost로 설정되어있는지 확인
vim spark-env.sh spark 관련 경로 설정
vim spark-defaults.conf 하둡과 스파크를 연결했기 때문에
하둡 관리자인 yarn 을 master로 지정

기본 계정명은 guest로 설정했습니다.


  
cd $SPARK_HOME/conf
ls
//복제
cp workers.template workers
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
//vim 내용
vim workers
vim spark-env.sh
export JAVA_HOME=/home/guest/java
export HADOOP_CONF_DIR=/home/guest/hadoop/etc/hadoop
export YARN_CONF_DIR=/home/guest/hadoop/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/home/guest/hadoop/bin/hadoop classpath)
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3
//맨 하단에 내용추가
vim spark-defaults.conf
spark.master yarn

 

spark 실행 명령어


  
//hadoop 실행
start-all.sh
jps
hdfs dfsadmin -report
//spark 실행
pyspark

'data engineer > big data' 카테고리의 다른 글

[de] Hadoop 설치  (0) 2023.09.05