摘要

三元组信息通常以自然语言的形式存在于电子教材等非结构化文本中,现有模型难以理解其语义内容。为了从相关文档中精确提取三元组数据,提出一种基于实体映射的指针网络标注框架EPM(Entity Pair Mapping)。框架首先为每对实体分配唯一标签,通过将尾实体建模为从编码到头实体的映射加强实体间的依赖,再利用基于双通道注意力机制的关系分类器为上述实体对分配关系类型,从而完成三元组的抽取任务。此外,构建C++学科知识数据集,并将EDA方法用于小样本的数据增强。实验表明,上述模型的F1分数比最优方法实现了1.2个百分点的增益。