摘要

为解决一般预训练语言表示模型在语义理解和推理过程中存在不足的问题,提出了一种知识嵌入式预训练语言模型,使用知识嵌入和预训练语言表示的统一模型将事实知识集成到增强的语言表示模型中,充分利用知识图谱中包含的丰富的结构化知识事实来增强文本表示,从而提高预训练模型的效果。该模型利用大规模文本语料库和知识图谱进行训练优化,在THUCNews数据集上的文本分类的准确率和召回率分别达到了96.51%和90.36%,优于文本循环神经网络、基于变换器的双向编码器表征、增强语言表示模型的实验结果,验证了经知识图谱优化后的预训练语言模型在文本分类任务上的优越性。