摘要
关系抽取作为梳理学科知识的重要手段以及教育知识图谱构建的重要步骤,在当前研究中,如BERT等以Transformer架构为基础的预训练语言模型多数存在参数量大、复杂程度过高的问题,导致其难以部署到终端设备上,在真实教育场景中的应用受到限制。此外,大多数传统的轻量级关系抽取模型并不是通过文本结构对数据进行建模,容易忽略实体间的结构信息,且生成的词嵌入向量难以捕捉文本的上下文特征、一词多义问题解决能力差,难以契合学科知识文本非结构化以及专有名词占比大的特点,不利于高质量的关系抽取。针对上述问题,提出了一种基于改进分段卷积神经网络(PCNN)和知识蒸馏(KD)的学科知识实体间关系抽取方法。首先,利用BERT生成高质量的领域文本词向量,对PCNN模型的输入层进行改进,从而有效捕捉文本上下文特征并在一定程度上解决一词多义问题;其次,利用卷积和分段最大池化操作深入挖掘实体间结构信息,完成BERT-PCNN模型构建,实现高质量的关系抽取;最后,考虑到教育场景对高效且轻量化模型的需求,蒸馏BERT-PCNN模型输出层和中间层知识,用于指导PCNN模型,完成KD-PCNN模型的构建。实验结果表明,BERT-PCNN模型的Weighted-average F1达到94%,相较于RBERT和EC-BERT模型分别提升了1个百分点和2个百分点;KD-PCNN模型的Weighted-average F1达到92%,持平于EC-BERT模型,参数量相较于BERT-PCNN、KD-RB-l模型下降了3个数量级。可见,所提方法能够在性能评价指标和网络参数量之间取得更好的权衡,有利于教育知识图谱自动化构建程度的提高和新型教育应用的研发与部署。
- 单位