视觉关系检测的目的是检测出图像中目标间的关系,形成诸多三元组,帮助人们实现对图像的文本描述。采用图像特征、空间特征与语义特征等多个特征提取网络,确保多尺度特征提取,加强特征提取能力,提升视觉关系检测的准确率。