摘要

【目的】有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。【方法】提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。使用双向语言模型预训练大规模非结构化的企业风险领域数据得到的笔画ELMo向量作为输入特征;将其送入IDCNN网络进行训练,运用CRF对IDCNN的输出层进行处理,获得全局最优的企业风险领域实体序列标注。【结果】模型对企业风险领域实体抽取的F值为91.9%,相对于BiLSTM-CRF模型的抽取性能提升了2.0%,且测试速度快2.36倍。【局限】未考虑本模型扩展于更多领域实体抽取任务的普适性。【结论】本文模型能够为企业风险领域实体语料库构建提供参考借鉴。