摘要

本发明公开了一种在深度语言模型中融入额外知识信息的方法,其特点是采用将知识信息融入到深度语言模型中进行预训练的方法,通过大规模自然语言语料上进行实体标注,并对自然语言文本进行实体级别的扰动构造负样本用以强化和提升知识库问答系统中关系匹配模块的性能,模型的训练和知识融入具体包括:构建词表、识别实体信息、创建训练所需的负样本和预训练深度语言模型步骤。本发明与现有技术相比具有将结构化知识信息引入深度语言模型的参数中,使得模型具备针对自然语言输入文本进行包含事实性结构化信息的语义理解,在对应任务上获得性能提升,方法简便,效率高。