摘要

关键词是文本处理中很重要的环节,通过提取文档的关键词,可以简要概况该文档的大体内容。在传统算法中,主要依靠词频-逆文档率(TF-IDF)信息提取关键词,此种方法没有利用领域类别信息。文章基于领域类别信息,首先计算每个关键词的词频-方差指标,然后利用领域互斥关键词提取、非领域互斥关键词提取两种方案选择出每个领域的关键词,最后给出了训练和预测的整体流程,具有较强的实用性和较好的分类效果。

  • 单位
    山东信息职业技术学院