摘要

为了提高食品安全领域关系抽取的效率和准确性,该研究在收集食品安全领域语料的基础上,对语料中相应的实体和关系进行标注,构建可用于食品安全领域关系抽取的专业数据集。同时,提出面向食品安全领域的基于BERT-PCNN-ATT-Jieba的关系抽取模型,该模型使用基于转换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers,BERT)预训练模型生成输入词向量,并结合分段卷积神经网络(Piecewise Convolutional NeuralNetwork,PCNN)模型的分段最大池化层能极大程度捕获句子局部信息的特点,在分段最大池化层与分类层之间添加了注意力机制,以进一步提取高层语义。此外,考虑中文语料的特性,在BERT模型进行随机掩码切分之前,采用Jieba分词技术对中文语料进行分词,PCNN模型在执行掩码语言模型(MaskedLanguageModel,MLM)时以词为单位进行掩码,使得输入到训练模型中的句子尽可能减少语义损失,以实现更高效的关系抽取。在该研究构建的数据集基础上,将BERT-PCNN-ATT-Jieba模型与经典的卷积神经网络(Convolutional Neural Network,CNN)、PCNN模型、以及结合BERT的CNN、PCNN、PCNN-ATT、PCNN-Jieba等6个模型进行比较,该研究提出的BERT-PCNN-ATT-Jieba模型取得更优的性能,其准确率达到84.72%,召回率达到81.78%,F1值达到83.22%。该模型为食品安全领域的知识抽取提供参考,为该领域知识图谱的自动化构建节约了成本,同时为基于该领域知识图谱的知识问答、知识检索、数据共享及食品安全智慧监管等应用提供依据。