摘要

针对领域命名实体识别过程中标注语料少、手工标注工作量大的问题,提出了一种基于Bootstrap的领域命名实体半监督标注方法,从少量种子实体出发,抽取上下文规则和词性特征,通过构建特征模板匹配符合规则的新实体,以最长匹配原则对无标注文本进行实体反标获得自动化标注的语料库,最后利用人工校验方法实现标注数据的检查和纠正。实验表明,该方法能够有效提高领域命名实体标注的效率,具有良好的适用性。