摘要

现有端到端的立体匹配算法,为了减轻显存消耗和计算量而预设固定视差范围,在匹配精度和运行效率上难以平衡。针对这个问题,本文提出了一种基于轻量化Transformer的自适应窗口立体匹配算法。该算法利用线性复杂度的坐标注意力层对低分辨率特征图进行位置编码,减轻计算量并增强相似特征的辨别力;设计了轻量化Transformer特征描述模块,转换上下文相关的特征,并引入了可分离多头自注意力层对Transformer进行轻量化改进,降低Transformer的延迟性;用可微匹配层对特征进行匹配,设计了自适应窗口匹配细化模块进行亚像素级的匹配细化,在提高匹配精度的同时减少显存消耗;经视差回归后可生成无视差范围的视差图。在KITTI2015、KITTI2012和SceneFlow数据集上的对比实验表明,所提的立体匹配算法比基于标准Transformer方法的STTR,在匹配效率上快了近4.7倍,具有更快的运行速度和更友好的存储性能;比基于3D卷积方法的PSMNet,误匹配率降低了18%,运行时间快了5倍,实现了更好的速度和精度平衡。

全文