摘要
目的 针对传统红外与可见光图像融合方法中人工设计特征提取和特征融合的局限性,以及基于卷积神经网络(convolutional neural networks, CNN)的方法无法有效提取图像中的全局上下文信息和特征融合过程中融合不充分的问题,本文提出了基于视觉Transformer和分组渐进式融合策略的端到端无监督图像融合网络。方法 首先,将在通道维度上进行自注意力计算的多头转置注意力模块和通道注意力模块组合成视觉Transformer,多头转置注意力模块解决了自注意力计算量随像素大小呈次方增大的问题,通道注意力可以强化突出特征。其次,将CNN和设计的视觉Transformer并联组成局部—全局特征提取模块,用来提取源图像中的局部细节信息和全局上下文信息,使提取的特征既具有通用性又具有全局性。此外,为了避免融合过程中信息丢失,通过将特征分组和构造渐进残差结构的方式进行特征融合。最后,通过解码融合特征得到最终的融合图像。结果 实验在TNO数据集和RoadScene数据集上与6种方法进行比较。主观上看,本文方法能够有效融合红外图像和可见光图像中的互补信息,得到优质的融合图像。从客观定量分析来说,在TNO数据集中,本文方法相比于性能第2的方法,在归一化互信息、非线性相关信息熵、平均梯度和标准差指标上分别提高了30.90%、0.58%、11.72%和11.82%;在RoadScene数据集中,本文方法在以上4个指标上依然取得了最好成绩。结论 由于有效特征的提取和融合的复杂性以及融合过程中噪声的干扰,现有的融合方法都存在一定的局限性,或者融合效果质量不理想。相比之下,本文提出的基于视觉Transformer的图像融合方法在融合质量上取得了巨大提升,能够有效突出红外显著目标,并且将源图像中的背景信息和细节纹理有效保留在融合图像中,在对比度和清晰度方面也具有优越性。
- 单位