目标:定向采集不少于4个中文社会新闻网站或频道,实现这些网站新闻信息的自动爬取、抽取、索引和检索。
- 具体要求: :
- 新闻网页数目不少于5万页,新闻信息能在一天之内更新。
- 支持关键词检索及通配符检索。
- 能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。
- 具备查询自动补齐、相关搜索推荐、snippet生成等功能。
- 每条检索结果下面可以对相似新闻进行查找。
- 首页中列举当前最热的社会新闻。
- 参考实现:百度主页的推荐页面(热点新闻)+百度资讯搜索。 相关技术:文本处理、特征提取、索引、排序和打分、评价。
- 文档模型 : BM25模型
运行IREngine.py启动应用。首次运行请先依次运行IREngine\IREngine\spider 下的1_init_indexes.py,2_init_term_index.py,3_gen2gram.py文件将生成的索引文件复制到IREngine\index_file目录即可。
- 依赖支持: :
- flask
- jieba
- apscheduler
- pickle