摘要
遥感图文检索可以从类别繁多、内容复杂的遥感数据中检索到有价值的信息,对环境评估、城市规划以及灾害预测具有重要意义。但是,遥感图文跨模态检索存在一个关键问题,即遥感图像的空间布局信息被忽略。其主要体现在两个方面,一是遥感目标的远距离建模困难;二是遥感相邻次要目标被淹没。基于以上问题,提出了一种基于布局化-语义联合表征的跨模态遥感图像文本检索模型,主要包括主导语义监督下的布局化视觉特征提取模块(Dominant Semantic Supervision Layout Visual Feature Extraction,DSSL)、布局化视觉-全局语义交叉指导模块(Layout Visual - Global Semantic Cross Guidance,LV-GSCG)和多视角匹配模块(Multi-View Matching,MVM)。DSSL模块实现主导语义类别特征监督下图像的布局化建模。LV-GSCG模块计算布局化视觉特征与文本中提取的全局语义特征的相似度来实现不同模态特征的交互。MVM模块建立跨模态特征指导的多视角度量匹配机制以消除跨模态数据之间的语义鸿沟。在四个基线遥感图像文本数据集上的实验验证,结果表明该模型在大多数跨模态遥感图像文本检索任务中可以达到最先进的性能。
- 单位