摘要
本发明公开了一种基于注意力机制的单目图像深度估计方法。主要解决现有技术在图像的光照差和像素深度值变化微小区域深度估计精度低的问题。其实现方案是:读取单目图像深度估计数据集数据,并对其进行预处理;使用Swin Transformer网络作为编码器网络提取预处理数据的特征;构建聚合结构,用于优化预处理数据的特征输出全局信息特征;构建基于注意力机制的解码器网络,以对编码器和聚合结构的输出特征进行优化解码,得到解码器输出特征;构建深度预测网络,利用解码器的输出特征预测图像深度。本发明显著提高了单目图像深度估计的精度,且在图像光照差和像素深度值变化微小的区域深度估计效果更好,可用于自动驾驶、机器人和三维重建。
- 单位