摘要
基于深度强化学习(ReinforcementLearning,RL)的知识推理旨在推理缺失事实并补全知识图谱,RL智能体在知识图谱上搜索路径,并基于路径进行事实预测和链接预测。由于具有良好的性能和可解释性,基于深度RL的知识推理方法近几年迅速成为研究热点。然而,对于特定实体来说,动作空间中存在大量的无效动作,RL智能体常常会因选择无效动作而终止游走,所以路径挖掘的成功率很低。为了解决无效动作的问题,本文提出一种基于深度迁移强化学习的知识推理方法——TransPath,在目标任务之外增加了单步游走选择有效动作的源任务。首先在源任务上训练单步游走,帮助RL智能体学会选择有效动作,然后迁移到目标推理任务上进行路径搜索训练,提高路径挖掘的成功率。在数据集FB15K-237和NELL-995上的对比实验结果表明,本文方法不仅大幅提升了路径搜索的成功率,而且在大多数推理任务中性能优于同类方法。
-
单位国网上海市电力公司; 南京航空航天大学