摘要

方志类古籍是特色典籍,是优秀中华文化的重要载体。命名实体识别是中文古籍文本挖掘与利用的重要环节,对理解古籍内容起到积极作用。文章以数字化的特色馆藏方志农业典籍《方志物产》为研究语料,邀请领域专家制定语料标注标准,并采用交叉互核的方式进行语料标注,构建实体的内外部特征模板,完成基于条件随机场的自动实体识别,实现多类型命名实体的自动抽取。实验结果证明,基于条件随机场的方志类古籍多类型命名实体自动识别模型发挥了较好的性能,其中别名、地名和引用名的识别率较显著,最高正确率分别达95.56%、98.28%和95.56%;人名和用途名的识别效果稍显不足,最高正确率分别为75%和74.04%,验证了条件随机场模型在方志类古籍多类型命名实体识别中的有效性。