摘要
为解决现存多跳推理方法存在的泛化能力差、难以解释等问题,在基于策略的强化学习框架下,通过推理智能体扩展推理路径的方式解决,将实体对间的路径搜索问题转换为选择多个关系边和实体节点的序列决策问题。提出DRL-MHR(deep reinforcement learning for multi-hop reasoning)算法,将经过语义和拓扑表征的实体节点与关系边按照建模要求组成知识图谱强化学习环境,利用收益塑造技术,通过最大化推理智能体的收益,学习最优搜索路径。DRL-MHR算法在一次和三次命中率方面有显著改进,提升了多跳推理在不同量级和领域知识图谱上的问答应用能力。