맨땅에 헤딩 일기 🔥

[Hadoop] 연산 프레임워크 (feat. MapReduce, Spark, Flink)

대다수 프레임워크는 사용자가 정의하거나 합성한 임의의 연산을 잘게 나눠서 분산 실행한다. Hadoop MapReduce 대용량의 데이터를 분산/병렬 컴퓨팅 환경에서 처리하기 위해 제작된 모델이다. 단순한 구조에도 불구하고, 강력하고 견고하며 확장성이 높다. 큰 데이터가 들어왔을 때, 데이터를 블록으로 나누고 각 블록에 대해서 Map Task와 Reduce Task를 수행한다. Map Task: 파일에 있는 각 레코드를 Key-Value형태로 변환한 결과를 반환한다. (보통 블록당 하나의 Map Task가 배정되는 것이 이상적) Reduce Task: 하나의 키에 대한 여러 값의 집계 또는 결합해서 입력값의 개수보다 더 작은 개수의 결과값을 산출한다. 처리 과정 예시 단어 개수를 세기 위한 파일을 HDFS..

Engineering 💻/Hadoop 2022.01.11

[Hadoop] 핵심 컴포넌트 (feat. HDFS, YARN, ZooKeeper, Hive Metastore)

하둡 에코시스템 빅데이터 활용을 극대화 하기위한 분산 스토리지와 연산 기능을 갖춘 프로젝트. 흔히 '하둡'이라하면 일반적으로 하둡을 중심으로 만들어진 프로젝트와 프레임워크 전부를 의미한다. 핵심 컴포넌트 HDFS (Hadoop Distributed File System) 확장성과 장애 허용성을 가진 분산 파일 시스템 파일 수정이나 삭제가 불가능하고, 추가만 가능하다. 따라서 대규모 데이터를 저장하는 데 탁월하다. 데이터를 분산하여 저장하기 때문에, 개별 디스크나 데이터노드 또는 랙에 장애가 발생하더라도 데이터 안정성이 유지 데이터노드를 클러스터에 추가하기만 하면 파일시스템 용량이 늘어남 클러스터 저장이나 연산 등 하나 이상의 기능을 제공하기 위해 협력하는 서버 조합을 말한다. 워커노드: 데이터 처리/연산..

Engineering 💻/Hadoop 2022.01.11

[DW] 데이터 웨어하우스 기초

데이터 웨어하우스란? 다양한 시스템에서 데이터를 공통의 형식으로 추출하여 적재된 분석용 중앙 데이터베이스를 의미한다. 사용자의 의사결정에 도움을 주기 위해 설계되었다. 만약 분석을 위해 필요한 큰 쿼리들을 시스템에서 사용하는 데이터베이스에 직접 요청한다면 부하로 인해 서비스에 영향을 미칠 수 있다. Ex. 분석을 위해서 1년 간의 고객데이터를 운영되고 있는 데이터베이스에 요청하게 된다면 과도한 트래픽에 의해서 장애가 날 수 있다. 데이터 웨어하우스의 성격 주제지향성 데이터 웨어하우스는 구축 전 사용 목적이 정의되어있다. DW의 데이터들은 이용자에게 이해하기 쉬운 형태로 제공된다. 통합성 여러 소스의 데이터를 통합해서 분석이 가능하다. (데이터 속성의 이름, 단위 등의 일관성을 통합한다.) 시계열성 시간에..

Engineering 💻/Hadoop 2022.01.10

[DB] 데이터베이스 기초

데이터베이스란? 데이터베이스란 여러 사람들이 공유하고, 사용될 목적으로 통합하여 관리되는 데이터의 집합 데이터 베이스를 사용하기 이전에는 파일 시스템을 이용하여 데이터를 관리했다. 이렇게 저장된 파일들을 업무에 사용할려고 하니... 각 데이터가 중복에다가 형태가 다르다는 문제가 발생하게되었다. 이러한 파일 시스템의 단점을 극복하기 위해서 나타난 시스템이 데이터베이스(DB)이다. 데이터베이스의 특징 1. 데이터의 독립성 하위 단계의 데이터 구조가 변경되더라도 상위 단계에 영향을 미치지 않는 속성 > 3-스키마 구조를 통해 구현 파일 시스템의 응용 프로그램과 데이터가 상호 밀접하게 연결되어있다. 논리적 독립성: 응용 프로그램에 영향을 주지 않고, DB 논리적 구조를 변경할 수 있는 능력 / 많은 응용 프로그..

Engineering 💻/DB 2022.01.10

AWS EC2와 Python Selenium 을 활용한 토이 프로젝트 💻 (feat. 방탈출 자리 찾기!)

필자는 최근에 AWS Certified Cloud Practitioner 자격증을 취득했다. Data Engineer가 되기 위해서는 그들이 사용하는 기본적인 언어는 알아야한다고 생각했기 때문이다. 합격의 기쁨도 잠시, 자격증도 취득했으니 본격적으로 AWS를 실질적으로 사용해보기로 다짐했다! 1. 프로젝트 주제 정하기 필자는 방탈출 취미로 즐긴다. 취직 후 상경하여 유명하다는 방탈출은 대부분 해봤다. 하지만 예약조차하기 힘든 유명한 방탈출 테마가 있는데 그것은 바로 홍대 리코더의 "Tempo Rubato"이다. 따라서 두 달 사이에 취소되는 시간이 있는지 확인해서 있다면 그 정보를 메일을 전송하는 프로젝트를 기획했다. 프로젝트 주제를 선정하는 데 있어서 아래와 같은 점을 고려했다. 1. 24시간 돌아가야..

Personal/Toy Project 2022.01.07

터미널 종료 후에도 프로세스 실행 (feat. Selenium 작동시 유의사항)

하루종일 실행해야할 스크립트가 있어 프로세스를 백그라운드로 돌려야했다. 아래와 같이 nohup을 사용하면 가능하다. nohup python3 MyScript.py & nohup python3 MyScript.py > /dev/null 2>&1 & #표준출력을 설정하지 않을 때 nohup python3 MyScript.py > /tmp/nohup.log 2>&1 & #/tmp/nohup.log로 저장할 때 nohup python3 -u MyScript.py #print한 내용을 로그파일에 포함하고 싶을 때 종료 방법은 아래와 같다. ps -ef | grep 스크립트명 # PID(첫번째로 나오는 숫자) 확인 kill -9 PID # 백프로세스 삭제 좀 더 자세한 내용은 아래를 참고! https://joony..

Engineering 💻/Cloud 2022.01.05

EC2에 Selenium 환경 구축하기 (feat. Chrome, Chrome Driver)

0. PIP 설치 최초 EC2 사용자들은 PIP를 PIP를 먼저 설치해야 합니다. https://deep-flame.tistory.com/entry/%EC%B5%9C%EC%B4%88-EC2%EC%97%90-PIP-%EC%84%A4%EC%B9%98 최초 EC2에 PIP 설치 EC2 최초 개설 후 PIP 설치시 아래 에러가 나타날 수 있습니다. $ Unable to locate package python3-pip $ Package 'python3-pip' has no installation candidate 그럴때 아래와 같이 시도해보시기 바랍니다. $.. deep-flame.tistory.com 1. Selenium 설치 sudo pip install selenium 2. Google Chrome 설치 아..

Engineering 💻/Cloud 2022.01.05

최초 EC2에 PIP 설치

EC2 최초 개설 후 PIP 설치시 아래 에러가 나타날 수 있다. $ Unable to locate package python3-pip $ Package 'python3-pip' has no installation candidate 그럴때 아래와 같이 시도해보자. 🤗 $ sudo apt update $ sudo apt upgrade $ sudo apt install python3-pip

Engineering 💻/Cloud 2022.01.05

전체 글 44

티스토리툴바