반응형
1. ELK stack이란 ELK 스택은 Elasticsearch, Logstash, Kibana의 로그 수집 및 시각화를 위한 세 가지 오픈소스 프로젝트를 의미하는 약어입니다. 이미 수년 전부터 사용자 시스템 및 애플리케이션 로그 분석에 있어 꾸준한 인기를 이어왔으며, 실시간 데이터 분석과 분산형 검색 구조를 갖춰 초기 빅데이터 플랫폼 구축에 많이 활용되었습니다. 위의 세 가지 애플리케이션은 Elastic이라는 동일한 회사에서 개발되어 실제로는 독립된 모듈로서 사용하거나, 또는 다른 오픈소스 프로젝트(ex., Kafka)와 연동해도 무방합니다. 물론 Elasticsearch, Logstash, Kibana를 합쳤을 때야말로 플랫폼 구축과 운영이 용이해지며, 여기에 새로 추가된 Beats라는 경령화된 데..
1. 개념 데이터 사이언스 분야에는 기존의 고차원 데이터를 이보다 더 작은 차원으로 축소하는 알고리즘이 존재합니다. 대표적으로 주성분분석(Principal component analysis; PCA)이 유명하고, 다소 생소하지만 이와 비슷한 개념을 가진 정준상관분석(Canonical correlation analysis; CCA)라는 기법도 있습니다. 주성분분석(PCA)이 하나의 독립변수 집합을 압축시키는 방법론이라면, 정준상관분석(CCA)은 최소 2개의 독립변수 집단의 상관관계를 파악하고 이 상관관계를 극대화하는 압축 표현을 찾는 기법입니다. 헬스케어 데이터를 예시로 좀 더 쉽게 접근해보자면 아래와 같은 표현이 가능할 것 같습니다. 주성분분석(PCA)는 건강 관련 데이터(혈압, 심박수, 체중, 콜레스테..
1. CDN이란? Content Delivery Network, 줄여서 CDN은 유튜브, 게임, SNS 서비스가 사용자에게 콘텐츠를 효율적으로 전달하기 위해 고안된 분산 네트워크 시스템입니다. 지리적으로 여러 서버 노드를 분산시킴으로써 서비스 이용자와 서버 사이의 물리적인 거리가 줄일 수 있는데요. 이를 통해 서비스 대기 시간을 줄여 전 세계 어느 사용자든지 빠르고 신뢰할 수 있는 콘텐츠를 제공받게 됩니다. 2. CDN의 활용 예 서버 하나가 모든 사용자의 요청을 대응하게 되었을때의 트래픽 양은 상상 이상일겁니다. 트래픽이 과다해지면 서버 부하가 심해지고 이로 인한 서비스 장애로 일부 사용자는 원활한 콘텐츠 이용이 어려워질 것입니다. 주로 신규 온라인 게임의 오픈베타나 스포츠 경기 스트리밍 중계 과정에서..