摘要

术语是语料库、机器翻译、人工智能实时翻译建设的基础,但传统术语抽取方法存在不全面、错误率高的问题。即便是采用人工抽取的方式,除了耗时耗力难以适应大数据时代社会化大生产的要求,也存在不同的专家观点不一致的问题。从术语的语言特征和复合测量方法出发,综合使用词性特征数值、词长比特征数值、C值法和词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)数值抽取术语。同时,以农业领域的语料为例进行术语抽取,实验结果表明:本文方法抽取的术语精确度和召回率都较高,能有效提高术语抽取的准确率。