반응형
빅데이터(Big Data), 문자 그대로 데이터가 정말 많다는 것을 표현합니다. ‘하둡(Hadoop)’은 그 빅데이터를 처리하기 위한 대표적인 시스템이구요. 그러나 단순히 속 뜻대로 데이터 양이 많은 정도라면, 빅데이터는 왜 별개의 기술 분야처럼 구분되어 일부 서버 개발자나 데이터 사이언티스트들의 기본적인 테크 코스가 되었을까요? 좀 더 구체화해보면, 1) 빅데이터는 어떤 시스템 요구 사항을 충족해야하며, 2) 하둡은 어떤 의미에서 빅데이터에 어울리는 시스템 아키텍쳐인지 알아볼 필요가 있습니다. 1. 분산 저장/처리 시스템이 필요한 이유 빅 데이터는 어느 정도를 빅 데이터라고 부를까요? GB 정도의 단위는 어림도 없고, 최소한 TB 단위부터 시작해야 할 것입니다. 그것도 매일 그 정도의 새로운 데이터가 ..
1. 데이터 준비 시각화할 데이터를 서비스에 올리기 위해서 아래의 3가지 방법을 이용할 수 있습니다. Kibana 웹 인터페이스에서 직접 데이터 업로드 (csv, tsv, json 등의 데이터 포맷 허용) 터미널 또는 프롬프트에서 Elasticsearch REST API로 데이터 업로드 (json 포맷) Logstash로 파일을 읽어들여서 Elastic Engine에 저장 위 3가지 케이스들을 하나씩 테스트해보기 위해서 데이터 샘플을 준비하였습니다. 아래의 데이터는 2017~2021년 사이의 Bitcoin 거래 통계를 매주마다 기록한 리스트입니다. trade.csv trade.json 방식 A: Kibana 웹 인터페이스에서 데이터 업로드 터미널에서 명령어를 입력할 필요도 없고, 드래그 앤 드롭으로 곧바..
사전준비작업: Elasticsearch 설치/버전 확인 Kibana 서비스를 띄우려면 Elasticsearch가 미리 설치완료/동작 중인 상태여야 합니다. 두 애플리케이션간의 버전별 호환여부를 잘 확인하여 알맞는 버전의 패키지를 설치하시기 바랍니다. Elasticsearch가 준비되어 있지 않다면 다음 링크(https://citizen.tistory.com/35)의 내용을 우선 따라해보세요. 현재 글을 작성하는 시점(2023, 8월)에서의 Kibana 및 elasticsearch의 최신버전은 8.9.1이며, 본 포스트에서는 8.7.0 버전으로 통일하여 테스트를 진행하였습니다. 패키지 설치 $ curl -O https://artifacts.elastic.co/downloads/kibana/kibana-8...
ELK 스택에서 데이터 집계/전달을 담당하는 Logstash에 관한 포스트입니다. 본 게시글에서는 설치과정부터 기본 사용법, 활용례 등을 소개하고자 합니다. 1. Logstash 설치 https://www.elastic.co/kr/downloads/logstash Download Logstash Free | Get Started Now Download Logstash or the complete Elastic Stack (formerly ELK stack) for free and start collecting, searching, and analyzing your data with Elastic in minutes. www.elastic.co 가장 최신 버전인 8.8.2 버전(2023년 6월 기준)으로 ..
1. 기본 명령어 형태 터미널 상에서 Elastic Search에 작업 요청을 보낼때는 linux curl 명령어를 사용하며, 그 뒤로는 작업의 유형을 정의하는 옵션(ex, -XPUT, -XGET)과 리소스(URL) 주소 정보가 뒤따릅니다. 작업 유형 옵션은 HTTP 메서드 형태로 아래와 같이 구분됩니다. -XPUT: 인덱스, document 등 데이터를 추가 -XGET: 데이터를 조회 -XDELETE: 데이터 제거 -XPOST: 데이터 추가/수정 2. Index 명령어 Index 작업 관련 명령어 format은 다음과 같습니다. curl [HTTP 메서드] http://[elastic IP 주소:포트번호]/[index 명] Index 처리/조회 요청 # 인덱스 추가 $ curl -XPUT http://..