基于词向量和增量聚类的短文本聚类算法

作者:杨波; 杨文忠*; 殷亚博; 何雪琴; 袁婷婷; 刘泽洋
来源:计算机工程与设计, 2019, 40(10): 2985-3055.
DOI:10.16208/j.issn1000-7024.2019.10.043

摘要

由于微博短文本的高维稀疏和传统Single-Pass聚类算法对文本数据顺序敏感等问题,导致短文本聚类准确率较低。针对上述问题提出一种基于词向量和增量聚类的短文本聚类算法(improved single-pass algorithm based on word embedding,ISWE)。通过词向量模型得到文本的词向量矩阵,利用金字塔池化(spatial pyramid pooling,SPP)策略对文本词向量矩阵进行处理得到文本表示,使用改进的Single-Pass算法进行微博短文本聚类。实验结果表明,使用SPP策略的文本表示使聚类准确率明显提高,ISWE算法相较于传统的Single-Pass算法有更高的准确率和调整兰德系数,验证了其有效性和准确性。

全文