반응형
데이터 사이언스, 특히 Python에서 데이터를 담고 가공 및 분석하기 위한 자료구조로 pandas 패키지의 Dataframe을, 연산작업을 위한 자료구조로 numpy 패키지의 ndarray를 많이 사용합니다. 소스 데이터가 csv, json 또는 기타 다른 형태로 제공되든 간에, pandas는 이를 정형화된 테이블 구조로 변환하여 데이터 삽입, 수정, 필터링, 각 줄 또는 열에 대한 operation 등을 매우 손쉽게 처리해줍니다. 패키지 설치는 간단하니 길게 설명하지 않겠습니다. $ pip install pandas 1. 데이터 읽어오기 예제가 있어야 할 것 같아 Kaggle에서 활용할 수 있는 데이터셋을 링크로 걸어둡니다. 가볍게 pandas 함수 정도만 알아보실 분들은 건너뛰셔도 됩니다. 아래 주..
ELK 스택에서 데이터 집계/전달을 담당하는 Logstash에 관한 포스트입니다. 본 게시글에서는 설치과정부터 기본 사용법, 활용례 등을 소개하고자 합니다. 1. Logstash 설치 https://www.elastic.co/kr/downloads/logstash Download Logstash Free | Get Started Now Download Logstash or the complete Elastic Stack (formerly ELK stack) for free and start collecting, searching, and analyzing your data with Elastic in minutes. www.elastic.co 가장 최신 버전인 8.8.2 버전(2023년 6월 기준)으로 ..
기존에 이미 만들어둔 conda 가상환경을 분리해서 사용하거나, 또는 다른 Linux 계정의 사용자에게도 동일한 가상 환경 설정을 제공하고 싶을 때가 있습니다. 그전에 작업하기 위해서 conda 가상환경에 상당히 많은 패키지들이 설치하였을텐데, 아래 방법을 이용하면 손쉽게 conda 가상 환경 카피본을 따 여기저기서 자유롭게 활용할 수 있습니다. 1. 복제하고자 하는 conda 가상환경 활성화 conda 가상환경이 설치된 계정('guest')으로 접속하여 복사하고자 하는 가상환경('venv')을 활성화시킵니다. conda env list conda activate [복사하고자 하는 가상환경 이름] 2. 가상환경 Export 가상환경의 configuration을 'yaml' 이라는 형태의 파일로 저장합니다..
1. 서브넷(Subnet)의 이해 우리가 사용하는 유무선 기기들은 특정한 IP 대역 안에 있습니다. 집에서 사용하는 기기들만을 묶어주는 대역이 있고, 기업이나 학교 단위로 사용할 수 있는 IP 그룹과, 더 넓은 범위에서는 이동통신사(SK, KT, LG U+)마다 가지고 있는 IP 대역이 존재합니다. 이렇게 전체 네트워크를 잘게 쪼개어 각각마다 일부 IP 구간을 할당해주는 것을 서브네팅(Subnetting)이라고 하며, 작게 나눠진 네트워크를 서브넷(Subnet)이라고 부릅니다. 네트워크에는 가정/건물/캠퍼스/통신사/국가 단위로 셀 수 없이 많은 서브넷이 존재합니다. 서브네팅을 하는 기준은 크게 2가지가 존재하는데요, 네트워크 클래스를 A, B, C, ... 급으로 나눠놓는 방식이 있고, 나머지 방식 하나..
Dockerfile은 사용자가 구축하고자 하는 Docker 컨테이너의 configuration 정보를 담는 설정 템플릿입니다. 이 스크립트 파일 안에는 기본 뼈대가 될 컨테이너 이미지(ex., Ubuntu, NginX 등), 환경 변수, 빌드 후 실행할 코드 등을 정의할 수 있습니다. 1. Dockerfile 기본 구문 FROM 배포할 컨테이너 기본 이미지를 지정합니다. FROM debian:buster-slim ENV 컨테이너 동작 과정에서 사용할 환경 변수를 설정합니다. # ENV [변수 명] [변수 값] ENV NGINX_VERSION 1.20.1 WORKDIR 컨테이너를 실행했을 때, 홈 디렉토리 역할을 할 경로를 지정합니다. 뒤에 설명할 RUN, CMD과 같은 명령어도 해당 경로를 기준으로 실행..
1. 기본 명령어 형태 터미널 상에서 Elastic Search에 작업 요청을 보낼때는 linux curl 명령어를 사용하며, 그 뒤로는 작업의 유형을 정의하는 옵션(ex, -XPUT, -XGET)과 리소스(URL) 주소 정보가 뒤따릅니다. 작업 유형 옵션은 HTTP 메서드 형태로 아래와 같이 구분됩니다. -XPUT: 인덱스, document 등 데이터를 추가 -XGET: 데이터를 조회 -XDELETE: 데이터 제거 -XPOST: 데이터 추가/수정 2. Index 명령어 Index 작업 관련 명령어 format은 다음과 같습니다. curl [HTTP 메서드] http://[elastic IP 주소:포트번호]/[index 명] Index 처리/조회 요청 # 인덱스 추가 $ curl -XPUT http://..