摘要
场景图是自然图像的一种结构化描述,有助于提高下游图像理解任务的性能和准确度.场景图的研究是当前计算机视觉和深度学习的重要内容,场景图生成是研究工作的重点和难点.由于数据集的长尾效应导致生成的对象关系准确性存在偏差,严重地限制了场景图的生成质量,所以无偏差场景图得以重视.在介绍视觉关系、场景图和长尾效应三个概念的基础之上,根据无偏差场景图生成流程,将现有的无偏差场景图生成分为数据平衡、无偏差训练、关系推理三种方法.对这三类方法中常见算法的优点和特点进行了总结与分析,对比了算法之间的性能.最后指出,融入外部知识、区分谓词粒度、提高小样本识别能力和构建更加平衡的数据集,是无偏差场景图生成未来研究重点.
- 单位