摘要

为了解决目前基于Transformer的模型需要较大的参数量而无法有效应用在资源受限的移动端设备中,提出一种融合卷积与Transformer两者优势的轻量级混合模型。模型中RmcvitBlock将输入张量分成多个通道组,利用深度可分离卷积和跨通道维度的互协方差注意力来增加感受野并融合多尺度特征,并融合unflod模块在保证其空间顺序的前提下,降低每个向量序列(token)送入自注意力模块后的计算消耗。基于整理后的Imagenet数据集的对比实验,RmcVit-M以5.81M的参数量大小达到了85.2%的准确率,其模型相关变体性能超过了参数量相似的Transformer 模型和卷积神经网络。结果表明,Rmcvit能够有效结合卷积神经网络与Transformer的优势,达到了以较少的模型参数获得更高准确率的目的。