반응형
1. 먼저 알아둬야 할 것중요한 사실 하나는, Hadoop 파일 시스템은 Linux OS 자체의 파일 시스템과는 별도로 운영된다는 점입니다. 즉, HDFS에 올라간 파일들은 ls 같은 명령어로 확인할 수 없고, 파일 경로도 일반적인 파일들과는 다릅니다. HDFS 내의 파일을 조회/생성/삭제하거나 HDFS의 상태를 확인하기 위해선 모든 명령어 앞에 hdfs 를 붙여야 하는데요. 구체적으로 어떤 명령어가 존재하고, 또 어떻게 데이터를 HDFS에 추가하는지를 정리하였습니다. 2. HDFS 명령어의 종류2-1. dfs파일 시스템을 관리하기 위한 명령어입니다. 일반적인 리눅스 명령어 앞에 hdfs dfs -(또는 hadoop fs -) 붙임으로써 사용 가능하고, HDFS 내의 파일 및 디렉토리를 조회하거나 생성/..
Hadoop이 지금에서야 Spark, Hive와 같이 다양한 오픈소스 프로젝트가 결합되서 쓰이지만, 초창기의 시스템 뼈대는 HDFS와 MapReduce로부터 시작되었습니다. 얼마 안가 Hadoop이 v2.0으로 버전업 되면서 MapReduce의 역할 일부가 YARN이라는 구성 요소로 떨어져 나와, 마침내 HDFS, MapReduce, YARN의 3진 체계가 이루어졌습니다. 3가지 각각의 요소의 기능은 다음과 같습니다. HDFS: 거대한 데이터를 여러 컴퓨팅 노드에 나눠 저장하는 분산 스토리지 시스템 MapReduce: 다량의 데이터를 집계하기 위한 분산 데이터 처리 엔진 YARN: Hadoop 클러스터 전체에서 수행되는 작업과 필요한 리소스를 관리하는 모듈 1. HDFS 빅 데이터라고 하면 "데이터가 개..