摘要
随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素检索提供了重要的模型支撑,但其在顾及空间语义关系等复杂跨模态检索任务上能力不足。本文提出了一种顾及空间语义关系的跨模态遥感影像检索技术,基于CLIP构建跨模态遥感影像检索模型GEOCLIP,通过对比学习方法训练,习得富含空间语义与开放信息的双模态语义对齐公共表示空间,特别针对遥感影像跨模态空间语义检索问题,引入遥感影像和文本表达中的空间关系提取,实现融合空间语义的跨模态检索。本文提出的顾及空间语义的跨模态遥感影像检索技术,在RSICD Dataset数据集上进行了验证,其R@1,R@5,R@10和mR指标均达到目前最优,其中平均召回率mR相较于CLIP提升了3.45%,相较于已公开发表的最优方法GaLR提升了77.22%。GEOCLIP在各种空间查询上的平均召回率mR全部优于CLIP,其中针对at、near、around的空间查询提升效果最大,分别为3.72%、8.85%、7.11%。
-
单位航天恒星科技有限公司; 西安测绘研究所