data engineer/big data(2)
-
[de] Spark on hadoop
준비사항: linux기반 가상머신에 java 11, python3, haddop3.3.6 설치 목표: 하둡에 파이스파크 연결하기 (터미널에서 진행) 설정할 내용 스파크 다운 및 압축해제(심볼릭 링크 걸기) workers.template 복제 spark.env.sh.template 복제 후 경로 설정 spark-defaults.conf.template 복제 후 master설정 spark 실행 시 start-all.sh와 종료시 stop-all.sh 명령어 1. 스파크 (3.2.4 ver) benefit of symbolic link: 여러 버전을 사용할때 일일히 bash설정을 바꾸지 않고도 다양한 버전을 사용할 수 있음 wget https://dlcdn.apache.org/spark/spark-3.2.4/..
2023.09.10 -
[de] Hadoop 설치
약 1년 전 1개월의 짧은 빅데이터 인력 양성교육 과정이 끝나고 추가적으로 빅데이터 저장 처리하는 Hadoop + Spark 에 대해 알려주신적 있다! 아니나 다를까, 설치과정부터 에러나서 포기했는데 이번에 KDT를 들으면서 엔지니어링의 하이라이트 !!! Ubuntu + Linux + Hadoop + Spark + ... 실습을 열나게 하는중이다~~ 그래서 오늘 정리할 내용은 리눅스서버에 hadoop 설치하고 실행하는 과정 (java, python 사전 설치 필요) 1단계 apt update & upgrade Key 발급 받기 java와 python 설치 후 확인 sudo apt update //업데이트 sudo apt install openssh-server -y // //sudo apt install..
2023.09.05