摘要
人-物交互行为检测作为视觉关系检测的一个新分支,在图像理解领域起着重要的作用。由于图像内容复杂多样,人-物交互行为的检测仍是一大挑战。与当前仅依靠人与物体间的成对信息的方法不同,本文提出了一种可以对上下文和全局结构信息进行建模的基于图的人-物交互行为检测方法。首先,为了更好地利用人与物体之间的关系,将图像中检测到的人和对象视为节点,构造人-物交互图。其次,为了获得更鲁棒的人与物体节点的特征表示,通过两个的特征提取网络,分别对全局和局部上下文进行建模。最后,引入图注意力网络,在人-物交互图中的不同节点间迭代传递信息,检测潜在的人-物交互行为。在V-COCO和HICO-DET数据集上的实验验证了该方法的有效性,并表明该方法优于现有的许多方法。
- 单位