摘要

短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(VectorSpace Model)向量化表示,容易得到高维稀疏的向量。词的稀疏表示缺少语义相关性,造成语义鸿沟,从而导致下游聚类任务中,准确率低下,容易受噪声干扰等问题。鉴于此,提出一种新的聚类模型BERT_AE_K-Means,利用预训练模型BERT(Bidirectional Encoder Representations from Transformers)作为文本表示的初始化方法,然后利用自动编码器AutoEncoder对文本表示向量进行自训练以提取高阶特征,最后将得到的特征提取器Encoder和聚类模型K-Means进行联合训练,同时优化特征提取模块和聚类模块,提高聚类模型的准确度和鲁棒性。所提出的模型在四个数据集上与Word2Vec_K-Means和STC2等6个模型相比,准确率和标准互信息都有所提高,在SearchSnippet数据集上的准确率达到82.28%,实验结果显示,本文所提方法有效的提高了短文本聚类的准确度。