[de] Spark on hadoop
2023. 9. 10. 00:48ㆍdata engineer/big data
준비사항: linux기반 가상머신에 java 11, python3, haddop3.3.6 설치
목표: 하둡에 파이스파크 연결하기 (터미널에서 진행)
설정할 내용
- 스파크 다운 및 압축해제(심볼릭 링크 걸기)
- workers.template 복제
- spark.env.sh.template 복제 후 경로 설정
- spark-defaults.conf.template 복제 후 master설정
- spark 실행 시 start-all.sh와 종료시 stop-all.sh 명령어
1. 스파크 (3.2.4 ver)
benefit of symbolic link: 여러 버전을 사용할때 일일히 bash설정을 바꾸지 않고도 다양한 버전을 사용할 수 있음
wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4-bin-without-hadoop.tgz
#압축해제
tar xvzf spark-3.2.4-bin-without-hadoop.tgz
#심볼릭 링크 설정
ln -s spark-3.2.4-bin-without-hadoop spark
ls -l
2. spark home에 들어가서 3-5 단계 진행
cd $SPARK_HOME/conf
ls
cp workers.template workers
cp spark-env.sh.template spark-env.sh #copy
vim spark env.sh
각 vim에 들어갈 내용
vim workers | workers가 localhost로 설정되어있는지 확인 |
vim spark-env.sh | spark 관련 경로 설정 |
vim spark-defaults.conf | 하둡과 스파크를 연결했기 때문에 하둡 관리자인 yarn 을 master로 지정 |
기본 계정명은 guest로 설정했습니다.
cd $SPARK_HOME/conf
ls
//복제
cp workers.template workers
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
//vim 내용
vim workers
vim spark-env.sh
export JAVA_HOME=/home/guest/java
export HADOOP_CONF_DIR=/home/guest/hadoop/etc/hadoop
export YARN_CONF_DIR=/home/guest/hadoop/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/home/guest/hadoop/bin/hadoop classpath)
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3
//맨 하단에 내용추가
vim spark-defaults.conf
spark.master yarn
spark 실행 명령어
//hadoop 실행
start-all.sh
jps
hdfs dfsadmin -report
//spark 실행
pyspark
'data engineer > big data' 카테고리의 다른 글
[de] Hadoop 설치 (0) | 2023.09.05 |
---|