融合BERT和自编码网络的短文本聚类研究

朱良奇; 黄勃; 黄季涛; 马莉媛; 史志才

摘要

短文本相比于长文本词汇的数量更少，提取其中的语义特征信息更加困难，利用传统的向量空间模型VSM（VectorSpace Model）向量化表示，容易得到高维稀疏的向量。词的稀疏表示缺少语义相关性，造成语义鸿沟，从而导致下游聚类任务中，准确率低下，容易受噪声干扰等问题。鉴于此，提出一种新的聚类模型BERT＿AE＿K-Means，利用预训练模型BERT（Bidirectional Encoder Representations from Transformers）作为文本表示的初始化方法，然后利用自动编码器AutoEncoder对文本表示向量进行自训练以提取高阶特征，最后将得到的特征提取器Encoder和聚类模型K-Means进行联合训练，同时优化特征提取模块和聚类模块，提高聚类模型的准确度和鲁棒性。所提出的模型在四个数据集上与Word2Vec＿K-Means和STC2等6个模型相比，准确率和标准互信息都有所提高，在SearchSnippet数据集上的准确率达到82.28%，实验结果显示，本文所提方法有效的提高了短文本聚类的准确度。

单位
上海工程技术大学

收藏分享被引浏览

更新时间：2021-11-09 10:17

融合BERT和自编码网络的短文本聚类研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友