摘要

在文本聚类的词义消歧环节,引入外部词典的消歧结果受到词典规模和领域的限制。增加向量相似度比较和语义模型等改进技术手段,无法使其突破对外部词典的依赖。针对识别多义词在上下文中语义唯一性的问题,提出基于知识图谱词义消歧的文本聚类算法。该算法采用TF-IDF模型获取文本特征词集合,利用知识图谱表达的词义序列关系确定多义词在特定的语义环境中的唯一语义,在词义概念层面完成文本的向量化表示,进行文本聚类。在BBC数据集上的实验结果表明,该方法在文本聚类的平均准确率上达到95%。

  • 单位
    河北地质大学