摘要
军事语料的识别和标注是军事语料库建设的关键。针对军事语料的实体,提出了一套统一的军语词性标记规范和军事语料标注规范,设计了一种基于军语词典的自动扩展的军事语料实体特征提取框架。该框架借助设计的高精分类器进行基本特征的选择和提取,结合军语的典型特征组成特征集,构建基于军语词典校正的特征空间,对军事语料进行实体识别之后按照指定的标注规范和词形标记规范进行军事语料实体的标注,构建一个较大规模的高质量军事语料库。实验表明,该框架可以较好地完成语料实体的识别和语料标注工作,有利于军事语料库的建设工作和认清其在军事上的广泛作用和应用前景。
-
单位中国人民解放军陆军工程大学