摘要

提出了编码器到解码器结构的深度卷积神经网络,并基于二维层面和三维层面共同约束网络从单目图像中学习深度。在二维图像层面,为了均衡网络提取到的浅层细节特征和深层语义特征,引入通道注意力机制,在相同尺度上为编码器特征与解码器特征添加权重连接;为了得到边缘细节信息更丰富的深度图,构建了尺度不变损失和基于图像金字塔的多尺度边缘损失。在三维几何层面,为了提高点云之间的几何一致性,基于空间中坐标点的局部和全局几何关系,构建了深度的全局几何约束损失和局部几何约束损失。在NYU Depth-v2数据集上将所提方法的结果与其他方法进行定量定性比较。结果表明本文方法可以估计出准确度和细节上表现更好的室内场景深度,实现了更为准确和平滑的单张图像三维重建效果。