하둡 에코시스템 빅데이터 활용을 극대화 하기위한 분산 스토리지와 연산 기능을 갖춘 프로젝트. 흔히 '하둡'이라하면 일반적으로 하둡을 중심으로 만들어진 프로젝트와 프레임워크 전부를 의미한다. 핵심 컴포넌트 HDFS (Hadoop Distributed File System) 확장성과 장애 허용성을 가진 분산 파일 시스템 파일 수정이나 삭제가 불가능하고, 추가만 가능하다. 따라서 대규모 데이터를 저장하는 데 탁월하다. 데이터를 분산하여 저장하기 때문에, 개별 디스크나 데이터노드 또는 랙에 장애가 발생하더라도 데이터 안정성이 유지 데이터노드를 클러스터에 추가하기만 하면 파일시스템 용량이 늘어남 클러스터 저장이나 연산 등 하나 이상의 기능을 제공하기 위해 협력하는 서버 조합을 말한다. 워커노드: 데이터 처리/연산..