- 2021년 따릉이 고장 건수는 2020년에 비해 2배나 증가했다. 실제로 배치되어 있는 자전거 중 고장신고가 되어 있는 자전거가 많아 대여에 불편을 겪는 이용자가 많아졌다. 서울시 공공자전거 따릉이 안내센터에 직접 문의한 결과 고장 대처는 사용자의 신고에 의존하고 있으며 공무원이 수거하여 정비센터에 입고된 뒤, 대여소에 재배치 된다. 이에 우리는 사후처리로 대처하고 있는 따릉이 고장을 사전에 예측하여, 사용자의 이용 편의성을 증대시키고자 한다.
- 서울 열린데이터 광장에 있는 공공자전거 대여이력 정보와 고장 신고 내역 정보를 이용하여 고장 확률이 높은 자전거 정보를 추출해 내고자 한다.
Column | 자료형 | Column | 자료형 |
---|---|---|---|
자전거 번호 | object | 반납대여소번호 | object |
대여일시 | object | 반납대여소명 | object |
대여소 번호 | object | 반납 거치대 번호 | int64 |
대여소 명 | object | 이용시간(분) | int64 |
거치대 번호 | int64 | 이용거리 | int64 |
반납일시 | object |
Column | 자료형 |
---|---|
자전거 번호 | object |
등록일시 | object |
고장 구분 | object |
- 대여소명과 반납소명이 같은 경우 이용시간이 30분 미만인 경우 이용거리가 0이었다.
- 자전거의 속력을 기준으로 계산했을 때, 이상치라고 판단되는 값이 많을 것으로 추정된다.
- 시계열 분석을 해봤을 때 계절설을 띄고 있다.
- 이상치 제거
- 결측치 보간
- Feature engineering
- 월별 데이터 그룹화
- 본 프로젝트의 workflow는 크게 read, add, 모델학습, drop 4단계로 구성하였습니다.