2022春,研一下学期,《语义计算》课程大作业,K-Means文本聚类
采用THUCNews数据集,它包含了14类中文新闻,共836075个txt文件,每个文件中1篇新闻。
数据集下载地址:链接:https://pan.baidu.com/s/1VdE8CnZC_K-qNLCRJgIKfw 提取码:7xj1
代码中选取股票、教育、体育和星座4种类型的文本,每类200个文件。聚类准确率达到0.95。
- 基于 K-means 算法实现的文本聚类:https://blog.csdn.net/qq_29110265/article/details/90769363
- kMeans文本聚类与可视化:https://www.heywhale.com/mw/project/5f5dc9afae300e0046fdd488
- 使用K-means及TF-IDF算法对中文文本聚类并可视化:https://www.jianshu.com/p/622222b96f76
- 文本聚类(二)—— KMeans 聚类:https://blog.csdn.net/weixin_37179744/article/details/109051634