Welcome! 🙋‍♂️ View more

Python 3

[HIVE] 하이브-Python 연동 (feat. sqlalchemy)

프로젝트를 진행하면서 Python을 통해 Hive를 컨트롤하는 니즈가 발생했다. sqlalchemy를 활용하여, create select insert를 구현했다. sqlalchemy 란? Python에서 사용가능한 ORM(Object-relational maping)이다. 즉, 데이터베이스의 데이터를 Object필드와 매핑해준다는 것이다. 사실 DB의 스키마와 Object는 서로 기존부터 호환가능성을 두고 만들어진 것이 아니기에 불일치가 발생하는데,, ORM은 객체 간의 관계를 바탕으로 SQL문을 자동으로 생성하여 이러한 불일치를 해결한다. 이를 통해서 쿼리를 실행할 수도 있고, Python의 Dataframe과 데이터베이스간을 연결할 수 있다. Hive-Python 연동 1. select from sq..

[Airflow] Docker를 활용한 Airflow 구축

필자는 개인 프로젝트를 진행하며, Airflow를 통한 워크플로우 자동화를 구축했다. https://github.com/DeepFlame-JR/Stock_and_Forum GitHub - DeepFlame-JR/Stock_and_Forum: 주식 가격과 네이버 종목토론방의 내용을 시간별로 수집 주식 가격과 네이버 종목토론방의 내용을 시간별로 수집. Contribute to DeepFlame-JR/Stock_and_Forum development by creating an account on GitHub. github.com 어느 날, 모든 작업을 수행한 Task가 계속 Running 상태로 남아있었다. 구글링을 해보니, 한 작업에서 많은 리소스를 사용하게 되면 위와 같이 되는 버그가 있는 것을 확인했다...

AWS EC2와 Python Selenium 을 활용한 토이 프로젝트 💻 (feat. 방탈출 자리 찾기!)

필자는 최근에 AWS Certified Cloud Practitioner 자격증을 취득했다. Data Engineer가 되기 위해서는 그들이 사용하는 기본적인 언어는 알아야한다고 생각했기 때문이다. 합격의 기쁨도 잠시, 자격증도 취득했으니 본격적으로 AWS를 실질적으로 사용해보기로 다짐했다! 1. 프로젝트 주제 정하기 필자는 방탈출 취미로 즐긴다. 취직 후 상경하여 유명하다는 방탈출은 대부분 해봤다. 하지만 예약조차하기 힘든 유명한 방탈출 테마가 있는데 그것은 바로 홍대 리코더의 "Tempo Rubato"이다. 따라서 두 달 사이에 취소되는 시간이 있는지 확인해서 있다면 그 정보를 메일을 전송하는 프로젝트를 기획했다. 프로젝트 주제를 선정하는 데 있어서 아래와 같은 점을 고려했다. 1. 24시간 돌아가야..