摘要
人物交互检测任务(HOI任务)旨在检测出图片中所有存在交互关系的人和物,最后得到<人,动作,物>这样形式的三元组。一般的方法包括两阶段和一阶段算法,最近一些工作提出的基于transformer的HOI检测方法使整个管道变得更加简单。对于已有的检测模型HOTR,旨在优化其内部transformer结构,使其更好地适应HOI检测任务。对于其中用于交互检测的交互解码器,根据其交互查询嵌入分别生成了人和物的参考点,并以此设计了交互点生成公式,然后利用交互点的信息设计了条件交互查询,将其作为位置嵌入与内容嵌入相加得到query,最后与key点乘进行注意力计算。这有助于transformer显式地定位与交互相关的区域,缩小搜索范围并缓解对内容嵌入的依赖。最终,在基准数据集V-COCO和HICO-DET上,mAP分别提升了2.13百分点和8.33百分点,并且精度在V-COCO数据集上达到了目前最优。
- 单位