Skip to content

百度点石KDD 上下文感知多模式交通方式推荐 第23名解决方案

Notifications You must be signed in to change notification settings

mecya/KDD-Cup-2019

Repository files navigation

KDD-Cup-2019

百度点石KDD 上下文感知多模式交通方式推荐 复赛第23名解决方案 Context-Aware Multi-Modal Transportation Recommendation

  1. 分割城市

  2. 对每个城市分别提取特征

  3. 分别训练模型

  4. 结果融合&提交

data文件夹里为比赛数据

external_data文件夹里 为爬取或论坛开源的外部数据,包含天气、地铁、公交站等。

一、特征工程

1.plan特征

百度地图推荐的距离的统计值(mean,min,max,std)

推荐mode的价格的统计值(mean,min,max,std)

推荐mode的时间的统计值(mean,min,max,std)

对mode的统计(最大距离的交通方式,最高价格的交通方式,最短时间的交通

方式)

对plan内的信息直接进行平铺,平铺时求取 每个mode的距离、price、eta、

mode所属的性质

使用tf-idf进行文字特征的提取,提取推荐plans中的信息

2.日期、时序信息

请求时间点和 相应时间点的差距

请求时间点的所在小时、分钟、星期几、详细数字时间标识

距离0点,12点,6点的时间差距

3.距离特征

起点到终点的欧式距离、哈曼顿距离 、经纬度直线距离

起点&终点到最近地铁站的欧式距离、哈曼顿距离、经纬度直线距离

起点&终点到最近公交站欧式距离、哈曼顿距离、经纬度直线距离

起点&终点经纬度与 平均经纬度点的欧式距离、哈曼顿距离、经纬度直线距离

起点到终点的角度信息

  1. profile特征

使用SVD方法对profile特征进行降维距离

5.天气特征

.起点、终点所在区域的温度

6.计数特征

该起点&终点在所有位置点上出现的次数(强特)

根据pid聚类,统计起点&终点所在位置点上出现的次数(强特)

根据pid聚类,统计起点终点对所在位置点上出现的次数

7.排序特征

lightGBM对排序不敏感,对起点、终点所在表中的出现次数做排序

对平均、最大、最小价格的排序

8.交叉特征

对eta、price、disance之间做四则变换做尝试,类似FM的原理

二、trick

概率后处理,自己搜索阈值

About

百度点石KDD 上下文感知多模式交通方式推荐 第23名解决方案

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published