摘要
本发明公开了一种基于边界框提取和语义一致性约束的跨模态文本-行人检索方法,包括下述步骤:提取图像细粒度边界框;提取文本细粒度名词短语;生成训练集;构建细粒度聚合网络;训练细粒度聚合网络;使用文本对行人进行检索。本发明构建了基于边界框提取和语义一致性约束的文本-行人检索模型,利用现有的大型预训练模型(GLIP和CLIP)中的视觉语言知识,使用文本提示和GLIP精准提取识别行人身份的关键性局部特征,提高行人检索的准确度;使用CLIP提取视觉和语言特征,获取更为全面的语义表征;设计保持特征语义一致性的约束方法,减少噪声干扰,提高行人检索的稳定性。
- 单位