摘要

传统文本表示方法应用于农产品贸易摩擦新闻文本上,数据维度高、稀疏性较大、结构信息和语义信息表达不充分,会造成文本聚类时间复杂度和计算复杂度较大等问题。为解决这些问题,在Word2Vec词向量表示方法的基础上,结合TF-IDF表示新闻文本,提出基于关键词文本表示矩阵KTRM方法,通过深度学习聚类DEC模型进行文本聚类。在有标注的新闻语料上进行包括参数调节实验、文本表示方法对比实验和聚类方法对比实验,并应用于实际的农产品贸易摩擦新闻文本。结果表明,该方法聚类精度ACC及标准化互信息NMI均有显著提高,验证了该方法的有效性。最后,对该方法的应用前景进行了展望。