新闻类短文本聚类新方法的研究

傅承涛; 谢佳璇; 牛永洁

doi:10.13876/J.cnki.ydnse.2020.04.067

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

新闻类短文本聚类新方法的研究

作者：傅承涛; 谢佳璇; 牛永洁

来源：延安大学学报(自然科学版), 2020, 39(04): 67-76.

DOI：10.13876/J.cnki.ydnse.2020.04.067

摘要

针对短文本矢量化数据稀疏和维度高,基于词频统计语义缺失,传统聚类方法对非球面类别检测困难以及计算量大等问题,提出一种聚类新方法。该方法主要包含三个步骤:一对文本使用Doc2vec方法进行矢量化;二使用基于密度的聚类算法CFDP对矢量化后的文本数据进行聚类;三采用t-分布领域嵌入算法(t-SNE)将数据压缩到二维空间并进行可视化。并对聚类算法中关键参数进行了交叉测试,采用SDbw评价聚类的效果,得到CFDP算法最优的参数组合,最后对聚类效果进行了可视化,聚类结果与文本原始类别进行比较,F值达到89.24,聚类效果良好。

单位
延安大学

全文

访问全文

收藏分享被引(7) 浏览

更新时间：2024-04-12 10:28

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号