摘要

在知识库构建中,最重要的部分就是提取文本中的三元组,而三元组的提取需要实体抽取和实体关系抽取技术。针对实体抽取提出了一种CWATT-BiLSTM-LSTMd (Character Word Attention-Bidirectional Long Term and Short Term Memory - long short-term memory)模型。该模型可以有效解决实体抽取中一词多义问题,并且可以模拟标签的依赖问题。在实体抽取的基础之上进行实体关系的抽取,为解决实体关系抽取中远程监督的局限性,提出一种基于强化深度学习的RL-TreeLSTM(Reinforcement Learning Tree Long Short Term Memory)模型。该模型分为选择器和分类器,选择器选择有效的句子传入分类器,分类器对句子中实体对的关系标签进行预测。选择器和分类器共同训练以优化选择和分类过程,可以有效降低远程监督带来的噪音。通过实验表明提出的模型和方法能有效地提高实体及其关系的抽取。