摘要
场景深度估计是场景理解的一项基本任务,其准确率反映了计算机对场景的理解程度。传统的深度估计利用金字塔池化(ASPP)模块可以在不改变图像分辨率的情况下处理不同像素特征,但该模块未考虑不同像素特征之间的关系,导致场景特征提取不准确。针对 ASPP 模块在深度估计中出现的弊端,提出了一种改进型的 ASPP 模块,解决了该模块在图像处理中存在的失真问题。首先在卷积核后添加基于分层压缩激励的ASPP 结构块,结合各像素特征之间的关系,让网络自适应学习感兴趣部分;再通过构造差值矩阵解决网络层次优化问题;最后在室内公共数据集 NYU-Depthv2 上进行深度估计网络模型的搭建。与当前主流算法相比,文中算法在定性、定量指标上均有良好表现。在相同的评估指标下,δ1阈值精度提升近 3%,均方误差(RMSE)、绝对误差(Abs Rel)下降 1.7%,对数域误差(lg)下降约 0.3%。该方法所训练的网络模型,解决了传统 ASPP 模块未考虑不同像素特征之间关系的问题,特征提取能力增强,场景深度估计的结果更加准确。
- 单位