- 서울 실시간 도시 데이터를 활용한 한강 공원 데이터 파이프라인 구축
- 한강 공원 실시간 현황 데이터를 보기 쉽게 시각화
신윤재 | 서영수 | 이연호 | 김영우 | 박윤수 | 정지석 |
---|---|---|---|---|---|
yoonjaeo | SeoYeong-su | CUAGAIN-95 | wwkler | dnlpys | jiseok6843 |
- 서울 실시간 도시데이터 API 활용
- https://data.seoul.go.kr/dataVisual/seoul/guide.do
- API Key 발급 필요
- 수집
- 전체 115개의 핫스팟에 대한 데이터를 모두 수집
- 실시간으로 데이터 수집
- 1분 이내의 빠르게 수집
- 저장
- 데이터 중복 및 유실 방지
- 데이터 Lake 및 DB 활용
- 시각화에 가장 적합한 DB 활용
- 변환 및 전처리
- 115개의 핫 스팟 중 11개의 한강 공원 지역만 전처리
- 다양한 데이터 중 인구, 도로, 주차장, 날씨 데이터 전처리
- 사용
- 실시간 데이터를 효과적으로 시각화하는 툴 사용하여 시각화
- 다양하게 활용할 수 있도록 데이터 파이프라인 구축
- 관리
- 플렛폼들의 버전 관리를 손쉽게 할 수 있도록 함
- 플렛폼들의 서비스를 모니터링 하고 시스템 가용성 유지
- 일관된 개발환경 사용
- AWS EC2 활용
- 총 3개의 서버
- Image : Ubuntu 24.04 LTS
- Instance Type : t2.xlarge
- Storage : 100GB
- 해당 데이터에 가장 적합한 파이프라인를 찾기 위해 여러 아키텍쳐 실험 및 선정
- Server3에서 Docker swarm을 이용하여 각 서버에 모든 Container를 띄움
- 각 서버에서 띄워진 Container 확인
- Airflow 시연
- 시각화 시연
- 시연 영상 확인 👇👇