摘要

[目的] 探究文档间的非对称关系并提出量化模型。 [方法] 基于主题词共现思想,挖掘主题词间的非对称关联信息,采用文档覆盖度指标量化文档间的非对称关系,通过文档聚类进行实证分析。 [结果] 在文档聚类应用中,与已有的两种文档间关系模型相比,所提出的基于主题词共现的文档非对称关系模型使聚类结果的平均熵值分别最大下降了22.6%和23.3%。 [局限] 量化模型只聚焦了文档的文本内容,未考虑图片和公式等非文本内容对文档间非对称关系的影响。 [结论] 利用文档间非对称关系能更好地区分文档间差异性,有助于提高文档聚类准确率。