하둡(Hadoop)으로 빅데이터 프레임워크를 체험해보려고 하니, 하둡 주변에 딸린 소프트웨어가 한두 가지가 아닌 것을 쉽게 알 수 있습니다. 이들을 하나하나 설치하고 연동하려면 복잡한 작업과 많은 노동이 요구될 것입니다.
다행히도, Hortonworks라는 곳에서 하둡 입문자를 위해 실습용 가상 테스트베드 솔루션을 제공하고 있습니다. 이른바 HDP(Hortonworks Data Platform)라는 프로젝트를 말이죠.
HDP를 이용해서 하둡 에코시스템의 기본 구성 요소인 HDFS, MapReduce, YARN은 물론 Hive, Spark, Zookeeper, Zeppelin 등등 다양한 프레임워크를 쉽게 경험해볼 수 있습니다.
HDP 설치
HDP는 가상머신(VM) 소프트웨어용 이미지 또는 Docker 이미지 기반으로 설치 가능합니다. 현재 공식 사이트에서는 파일 소스를 제공하지 않으므로 아래 링크를 통해 다운로드 받아야 합니다.
# VirtualBox 용
wget https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP_3.0.1_virtualbox_181205.ova
# Vmware 용
wget https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP_3.0.1_vmware_181205.ova
# Docker 용
wget https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP_3.0.1_docker-deploy-scripts_18120587fc7fb.zip
주의 사항
하둡을 비롯한 프레임워크는 프로그램 자체 무게가 상당하므로 컴퓨팅 자원을 매우 많이 소모합니다.
HDP의 시스템 최소 요구사항은 4개의 프로세서와 8GB의 메모리이지만, 실제로 여러 주변 소프트웨어까지 연계하다 보면 이보다 더 많은 자원이 필요로 합니다.
때문에 노트북이나 중하위 스펙의 PC에서 HDP 실습을 진행하는 것은 바람직 하지 않습니다. 이를 잘 고려하여 PC 스펙이 낮은 경우는 설치 가이드1을, 시스템 자원이 충분한 경우는 설치 가이드 2와 3 중 하나를 참고해주세요.
설치 가이드 1: 클라우드 서비스 이용
PC 본체에 HDP를 올리기 버겁다면, Microsoft Azure, AWS 또는 Google Cloud Platform와 같은 클라우드 서비스를 이용하는 방법이 있습니다. 해당 사이트에 최초 가입 시 일정 기간(경우에 따라 1달 ~ 3달 정도) 동안 무료로 클라우드 이용이 가능합니다.
관련해서는 아래 링크를 참조하시면 되겠습니다.
https://pyromaniac.me/entry/Hortonworks-Data-Platform-%EC%84%A4%EC%B9%98-1-Google-Cloud-Platform
설치 가이드2: 가상머신(VM) 플랫폼 활용
VMware와 VirtualBox를 통해 설치하는 옵션이 존재합니다.
설치 가이드3: Docker 이미지로 설치
HDP는 컨테이너 이미지 버전으로도 Docker Hub에 올라와 있습니다. 개별적으로 이미지를 설치하지 않고, Hortonworks에서 제공하는 설치 스크립트의 도움을 받아 필요한 리소스 다운로드와 초기 설정을 마쳐야 정상적으로 HDP를 구축할 수 있습니다.
관련해서는 아래 링크의 설치 가이드를 참고해주세요.
https://pyromaniac.me/entry/Hortonworks-Data-Platform-%EC%84%A4%EC%B9%98-%EB%B0%A9%EB%B2%95-3-Docker
HDP 서비스 접속
알려드린 3가지 설치 방법 중 하나를 택하여 과정을 마무리하였다면, 설치 확인과 함께 HDP 서비스 접속을 해봅시다.
Admin 계정 설정
브라우저를 열고 localhost:4200
을 입력하여 웹 터미널에 들어갑니다. 아래 초기 계정 정보를 활용하여 시스템에 접속해주세요.
username: root
password: hadoop
HDP 시스템을 구축하고 나서 앞으로 쭉 ‘Ambari’라는 운영 대시보드를 활용하게 될 텐데요. 이 때 사용할 관리자 계정(admin
)의 비밀번호를 변경하는 작업이 필요합니다.
ambari-admin-password-reset
변경이 완료되었으면 브라우저를 열어 localhost:8080
에 접속해봅니다.
좌측 탭에서 현재 활성화된 빅데이터 서비스들을 확인 가능합니다. 기본적으로 아래와 같은 도구들이 있습니다.
- HDFS
- YARN
- MapReduce2
- Hive
- Kafka
- Spark2
- Zeppelin
터미널에서 SSH로 Sandbox 접속
브라우저용 쉘 대신, 터미널에서 Sandbox로 접근할 때는 포트번호 2222번을 사용합니다.
ssh maria_dev@[Sandbox IP 주소] -p 2222
이어지는 포스트에서는 HDP 테스트베드에 실제 데이터를 올리고, 앞서 나열한 서비스들 하나하나마다 어떻게 데이터를 처리하고 가공하는 지 소개할 예정입니다.