基于句向量和卷积神经网络的文本聚类研究

贾君霞; 王会真; 任凯; 康文

摘要

针对文本聚类时文本特征维度高，忽略文档词排列顺序和语义等问题，提出了一种基于句向量（Doc2vec）和卷积神经网络（convolutional neural networks,CNN）的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量，充分考虑文档词排列顺序和语义；然后利用CNN提取文本的深层语义特征，解决特征维度高的问题，得到能够用于聚类的文本特征向量；最后使用k-means算法进行聚类。实验结果表明，在爬取的搜狗新闻数据上，该文本聚类模型的准确率达到了0.776,F值指标达到了0.780，相比其他文本聚类模型均有所提高。

单位
兰州交通大学

收藏分享被引(9) 浏览

更新时间：2024-03-19 14:38

基于句向量和卷积神经网络的文本聚类研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友