摘要
[目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]实验结果表明,基于辅助集的领域停用词选取方法能够提高专利主题分析的区分度和质量。[局限]辅助集的选取类型和数量有待进一步研究。[结论]基于辅助集的领域停用词选取方法能够有效地衡量词的分布特征,从而更准确地选取专利主题分析中的领域停用词。
-
单位东南大学成贤学院; 南京工业大学