摘要

针对单目图片和声音回波信号都含空间信息这一特点, 提出一种视听融合的单目深度估计方法. 首先, 通过池化金字塔模块融合分析回波与材料特征来自适应估计单目图片的离散深度值; 然后, 采用卷积神经网络和Transformer相结合的方法对单目图片进行编码, 改进坐标注意力提出坐标自注意力模块对图片特征解码获得离散深度值的概率分布; 最后, 将像素点的深度值建模为离散深度值的期望来构建最终深度图. 实验结果表明, 在仿真数据集Replica和Matterport3D数据集上, 所提方法的均方根误差分别为0.205和0.875, 相对误差分别为0.095和0.161, 均取得具有竞争力的结果; 在真实数据和含噪声数据中, 该方法能够应用于真实场景的深度估计.