论文提出了一种基于Transformer融合的遥感图像文本跨模态检索方法,模型采用包含自注意力模块的单模态编码器获取各模态的特征表示,再经基于交叉注意力的跨模态融合模块使得不同模态信息相交互,并通过对比损失充分挖掘遥感图像和文本表示之间的潜在语义关系,进一步提高了遥感图像跨模态检索性能,在多个公开数据集上进行了实验验证,结果表明所提方法能够较准确地实现这两种模态信息之间的相互检索,验证了所提方法的有效性。