摘要

针对传统文本聚类忽略词与词之间的语义关系和数据高维的问题,提出了一种结合新概念分解和频繁词集的短文本聚类.该算法首先对短文本进行频繁词集的挖掘,接着使用挖掘的频繁词集来表示每个短文本,然后将每个文本进行向量表示.为了提高聚类的性能和解决概念分解的限制,提出了一种具有对偶连通约束的正则化概念分解算法,最后使用该算法进行短文本聚类.该算法不仅能对处理后的文本的维度起到很好的降低作用,还可以很好的关联短文本集中的文本,使文本之间的关系不再是独立的.在搜狐新闻和微博短文本数据集上的实验验证了该算法的有效性.