摘要

视觉关系检测(VRD)任务是在目标识别的基础上,进一步检测目标对象之间的关系,属于视觉理解和推理的关键技术。由于对象之间交互组合,容易造成对象间关系组合爆炸的问题,从而产生很多关联性较弱的实体对,进而使得后续的关系检测召回率较低。针对上述问题,本文提出了知识引导的视觉关系检测模型。首先构建视觉知识,对常见的视觉关系检测数据集中的实体标签和关系标签进行数据分析与统计,得到实体和关系间交互共现频率作为视觉知识;然后利用所构建的视觉知识,优化实体对的组合流程,降低关联性较弱的实体对得分,提升关联性较强的实体对得分,进而按照实体对的关联性排序并删除得分较低的实体对,对于实体之间的关系也同样采用知识引导的方式优化关系得分,从而提升模型的召回率。在公开数据集VG(Visual Genome)和VRD(Visual Relationship Detection)中验证所提模型的效果。与现有模型PE-Net(Prototype-based Embedding Network)相比,在VG数据集中,召回率Recall@50和Recall@100分别提高了1.84%和1.14%;在VRD数据集中召回率Recall@20、Recall@50和Recall@100分别提高了0.22%、0.32%和0.31%。