서울시에서 제공하는 다양한 대중교통 데이터(지하철, 버스, 따릉이 등)를 수집·저장하는 데이터 파이프라인 및 대시보드 구축 프로젝트
| 팀원 | 담당 | 주요 작업 내용 |
|---|---|---|
| 👤 정동영 | - 프로젝트 총괄 - ETL - ELT - DBT - PPT 제작 |
- 협업 환경 세팅 - 데이터 모델링 - 공공자전거 ETL 파이프라인 구축 - ELT 파이프라인 설계 및 구현 - DBT 환경 설정 및 관리 |
| 👤 이승아 | - ETL - Visualization - 보고서 |
- 서울시 공공자전거 2025년 데이터 적재 - 공공자전거 API 수집 파이프라인 구축 - 공공자전거 데이터 시각화 |
| 👤 김범준 | - ETL - DBT - 보고서 |
- 서울시 3종 대중교통 위치 데이터 적재 - 대중교통 위치 데이터 API 수집 파이프라인 구축 |
| 👤 정준 | - ETL - Visualization - 발표 |
- 서울시 버스 데이터 적재 - 버스 API 수집 파이프라인 구축 - 버스 데이터 시각화 |
| 👤 최시은 | - ETL - Visualization - PPT |
- 서울시 지하철 데이터 적재 - 지하철 API 수집 파이프라인 구축 - 지하철 데이터 시각화 |
-
데이터 수집
- 서울시 Open API를 활용한 지하철, 버스, 자전거 데이터 수집
- JSON, XML 형식 원본 데이터를 S3에 저장
-
데이터 전처리 및 변환
- 날짜 포맷 통일, 필요 컬럼 추출, Parquet 형식으로 변환하여 저장
-
데이터 적재
- Snowflake Storage Integration 및 Stage 기능을 통해 데이터 적재
- 멱등성을 보장하는 데이터 로드 방식 적용 (logical_date 기반 COPY INTO)
-
DBT 기반 모델링 (Dimension & Fact Tables)
dim_user,dim_station,dim_dateDimension 테이블 생성- 이용량 기반 Fact 테이블 (
fact_bike_usage,fact_bus_usage,fact_subway_usage) 관리
-
GitHub Branch Protection 설정
- 메인 브랜치: 모든 팀원의 리뷰 및 팀장 승인 필수
- 개발 브랜치: 팀장 승인 필수, 빠른 개발 및 리뷰 프로세스 구축
-
GitHub Actions를 통한 PR 자동화
- PR 생성 시 작성자 자동 Assignee 설정으로 효율적인 협업
- Airflow와 DBT를 활용한 자동화된 ETL 및 ELT 데이터 파이프라인 구축
- Snowflake 활용으로 ���르고 안정적인 데이터 분석 환경 구축
- GitHub을 통한 효율적인 팀 협업 프로세스 확립
- Preset 기반 대시보드를 통해 직관적이고 시각적인 분석 결과 제공







