implemention of paper: Learning deep structured semantic models for web search using clickthrough data
一个基于DSSM的Lookalike向量化召回pipeline简单实现,包括以下部分:
- 数据获取:使用2018腾讯广告算法大赛比赛中的训练数据(100000条)(aid,uid,label)。
- 三种数据负采样方法:<1>随机负采样。<2>根据出现频次负采样。<3>RALM采样方法,参考腾讯实时Look-alike
- DSSM实现,与原论文在loss计算方式上略有不同。
- 输出user embedding和item embedding。
较为完整的复现了工业界常用的基于DSSM的向量化召回pipeline。
- code: https://github.com/shenweichen/DeepCTR
- author: shenweichen
- python 3.6.5
- tensorflow == 1.14.0
- pandas
python examples/run_dssm_neg_sample.py