百度点石KDD 上下文感知多模式交通方式推荐 复赛第23名解决方案 Context-Aware Multi-Modal Transportation Recommendation
-
分割城市
-
对每个城市分别提取特征
-
分别训练模型
-
结果融合&提交
data文件夹里为比赛数据
external_data文件夹里 为爬取或论坛开源的外部数据,包含天气、地铁、公交站等。
一、特征工程
1.plan特征
百度地图推荐的距离的统计值(mean,min,max,std)
推荐mode的价格的统计值(mean,min,max,std)
推荐mode的时间的统计值(mean,min,max,std)
对mode的统计(最大距离的交通方式,最高价格的交通方式,最短时间的交通
方式)
对plan内的信息直接进行平铺,平铺时求取 每个mode的距离、price、eta、
mode所属的性质
使用tf-idf进行文字特征的提取,提取推荐plans中的信息
2.日期、时序信息
请求时间点和 相应时间点的差距
请求时间点的所在小时、分钟、星期几、详细数字时间标识
距离0点,12点,6点的时间差距
3.距离特征
起点到终点的欧式距离、哈曼顿距离 、经纬度直线距离
起点&终点到最近地铁站的欧式距离、哈曼顿距离、经纬度直线距离
起点&终点到最近公交站欧式距离、哈曼顿距离、经纬度直线距离
起点&终点经纬度与 平均经纬度点的欧式距离、哈曼顿距离、经纬度直线距离
起点到终点的角度信息
- profile特征
使用SVD方法对profile特征进行降维距离
5.天气特征
.起点、终点所在区域的温度
6.计数特征
该起点&终点在所有位置点上出现的次数(强特)
根据pid聚类,统计起点&终点所在位置点上出现的次数(强特)
根据pid聚类,统计起点终点对所在位置点上出现的次数
7.排序特征
lightGBM对排序不敏感,对起点、终点所在表中的出现次数做排序
对平均、最大、最小价格的排序
8.交叉特征
对eta、price、disance之间做四则变换做尝试,类似FM的原理
二、trick
概率后处理,自己搜索阈值