대다수 프레임워크는 사용자가 정의하거나 합성한 임의의 연산을 잘게 나눠서 분산 실행한다. Hadoop MapReduce 대용량의 데이터를 분산/병렬 컴퓨팅 환경에서 처리하기 위해 제작된 모델이다. 단순한 구조에도 불구하고, 강력하고 견고하며 확장성이 높다. 큰 데이터가 들어왔을 때, 데이터를 블록으로 나누고 각 블록에 대해서 Map Task와 Reduce Task를 수행한다. Map Task: 파일에 있는 각 레코드를 Key-Value형태로 변환한 결과를 반환한다. (보통 블록당 하나의 Map Task가 배정되는 것이 이상적) Reduce Task: 하나의 키에 대한 여러 값의 집계 또는 결합해서 입력값의 개수보다 더 작은 개수의 결과값을 산출한다. 처리 과정 예시 단어 개수를 세기 위한 파일을 HDFS..