Skip to content

Hadoop&Spark를 활용한 공공 자전거 고장 예측

Notifications You must be signed in to change notification settings

shjoo0407/Bicycle_breakdown

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

빅데이트 분석을 통한 공공자전거 고장 예측

주제 선정 이유

  • 2021년 따릉이 고장 건수는 2020년에 비해 2배나 증가했다. 실제로 배치되어 있는 자전거 중 고장신고가 되어 있는 자전거가 많아 대여에 불편을 겪는 이용자가 많아졌다. 서울시 공공자전거 따릉이 안내센터에 직접 문의한 결과 고장 대처는 사용자의 신고에 의존하고 있으며 공무원이 수거하여 정비센터에 입고된 뒤, 대여소에 재배치 된다. 이에 우리는 사후처리로 대처하고 있는 따릉이 고장을 사전에 예측하여, 사용자의 이용 편의성을 증대시키고자 한다.

목표

  • 서울 열린데이터 광장에 있는 공공자전거 대여이력 정보와 고장 신고 내역 정보를 이용하여 고장 확률이 높은 자전거 정보를 추출해 내고자 한다.

데이터 설명

대여이력 정보

Column 자료형 Column 자료형
자전거 번호 object 반납대여소번호 object
대여일시 object 반납대여소명 object
대여소 번호 object 반납 거치대 번호 int64
대여소 명 object 이용시간(분) int64
거치대 번호 int64 이용거리 int64
반납일시 object

고장 데이터 정보

Column 자료형
자전거 번호 object
등록일시 object
고장 구분 object

EDA

  • 대여소명과 반납소명이 같은 경우 이용시간이 30분 미만인 경우 이용거리가 0이었다.
  • 자전거의 속력을 기준으로 계산했을 때, 이상치라고 판단되는 값이 많을 것으로 추정된다.
  • 시계열 분석을 해봤을 때 계절설을 띄고 있다.

전처리

  1. 이상치 제거
  2. 결측치 보간
  3. Feature engineering
  4. 월별 데이터 그룹화

Main

image

  • 본 프로젝트의 workflow는 크게 read, add, 모델학습, drop 4단계로 구성하였습니다.

결론


참고

About

Hadoop&Spark를 활용한 공공 자전거 고장 예측

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published