ty33123 / IREngine Public

Notifications You must be signed in to change notification settings
Fork 1
Star 4

UCAS 信息检索导论大作业--新闻检索系统

4 stars 1 fork Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
source_code/IREngine		source_code/IREngine
sql		sql
README.md		README.md

Repository files navigation

信息检索大作业

大作业内容

目标：定向采集不少于4个中文社会新闻网站或频道，实现这些网站新闻信息的自动爬取、抽取、索引和检索。

具体要求： ：
新闻网页数目不少于5万页，新闻信息能在一天之内更新。
支持关键词检索及通配符检索。
能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。
具备查询自动补齐、相关搜索推荐、snippet生成等功能。
每条检索结果下面可以对相似新闻进行查找。
首页中列举当前最热的社会新闻。
参考实现：百度主页的推荐页面（热点新闻）+百度资讯搜索。相关技术：文本处理、特征提取、索引、排序和打分、评价。

实验流程

文档模型 ： BM25模型

文件说明

运行IREngine.py启动应用。首次运行请先依次运行IREngine\IREngine\spider 下的1_init_indexes.py,2_init_term_index.py,3_gen2gram.py文件将生成的索引文件复制到IREngine\index_file目录即可。

依赖支持： ：
flask
jieba
apscheduler
pickle

-

About

UCAS 信息检索导论大作业--新闻检索系统

Report repository

Releases

No releases published

Packages

No packages published

Languages