摘要

领域术语是本体构建的基本要素,自动获取高质量的领域术语是构建领域本体的基础。本文提出一种多策略融合的领域术语抽取方法。分析领域术语的语法结构及统计特征,构造术语抽取的逆向词性规则和领域专用停用词表;利用PATTree术语抽取模型和C-value方法获取候选术语;借鉴TF-IDF及参照语料对比思想,从单个文档和领域文档集两个层面计算术语领域度,并依据术语领域度的大小筛选得到领域术语。在经济类语料上的实验结果显示:领域术语的top-100、top-500和top-1500准确率分别达到了94.00%、85.20%和78.47%,与baseline相比,分别提高5%、4.8%和6.2%。