摘要
在自然语言处理的各种任务上,基于自监督预训练的相关工作大幅度提升了模型的效果。尽管缺乏结构化信息的监督,但在预训练模型学习得到的词向量中仍能反映出诸如语法依赖关系、知识三元组等语言结构信息。这也表明结构信息对于深层次理解语言尤为重要。该文将探索如何在NLP任务中引入额外的结构化信息,与之前研究工作的差别是直接在词向量上添加结构化监督的方法,该文提出的知识驱动的编码器模型——Prior-Driven Transformer(PDT)模型将结构化知识直接融入模型的自注意模块内,从而可进行领域知识驱动的信息传递和高层推理。具体来说,对于一个给定的序列,首先利用现有的工具提取包括语法级别到知识级别的多种结构化知识;然后,PDT模型分别将不同种类的结构信息转化为对应的掩码矩阵,并输入到Transformer模型中;最后,PDT模型仅在掩码矩阵覆盖的单词序列上进行自注意力运算,生成融合结构知识的文本向量表示来辅助常识问答。该文在常识问答数据集CosmosQA和CommonsenseQA上进行了大量的实验,实验结果表明,PDT模型不仅能够在预训练模型基础上进一步提升准确率,同时针对不同的样本,PDT模型也能关注到最有助于回答当前问题的结构化信息。
- 单位