摘要

关系抽取是信息抽取的核心任务,如何从海量的中文短文本中快速准确地抽取出重要的关系特征,成为中文短文本关系抽取任务的难点。针对这一问题,该文提出一种基于注意力机制的双向门控循环(Bidirectional Gated Recurrent Units, BiGRU)神经网络模型TFLS-BiGRU-ATT来对中文短文本中的关系特征进行抽取。首先,该模型使用所提出的文本定长选择(Text Fixed Length Selection, TFLS)策略对关系文本进行定长处理,然后利用双层BiGRU网络对定长文本进行关系特征提取,再通过所提出的注意力机制对关系特征进行权重的相应分配,最终对不同权重的特征信息进行实体间关系的抽取。基准实验的结果表明,TFLS-BiGRU-ATT模型在DuIE、COAE-2016-Task3、FinRE、SanWen四个具有不同特征的中文短文本数据集上获得的F1值分别达到93.62%、91.38%、49.35%、62.98%,显著优于对比模型。此外,还通过消融实验和定长选择实验进一步验证TFLS-BiGRU-ATT模型能够有效地提高中文短文本关系抽取的效果,说明该方法的可行性和有效性。