摘要

【目的】探索法律判决书中不同模型的实体识别效果,为法律知识库的构建奠定基础。【方法】提取刑事判决书中的庭审过程和法院意见构造数据集,比较人工构造特征的CRFs模型和加入预训练词向量做文本表示的自动生成特征的IDCNN-CRFs模型与BiLSTM-CRFs模型的实体识别效果,并在少量其他类型法律判决书文本上比较模型的迁移能力。【结果】ALBERT-BiLSTM-CRFs模型实体识别效果最好,F1微平均值达95.28%;IDCNN-CRFs模型的识别效果低于前者,但训练时间是前者的1/6,两个模型均具有较好的迁移能力。【局限】识别的实体多为通用实体,后续考虑标注更多领域特有实体,增强研究对实际应用的参考价值。【结论】法律判决书的实体识别中,ALBERT-BiLSTM-CRFs和IDCNN-CRFs模型比CRFs模型效果更好,且迁移能力更强。