摘要

在已知三维信息的场景中估计相机位姿,是自主驾驶、增强现实、虚拟现实等领域的重要环节。已有方法从输入图像中直接回归相机的位姿,或者通过回归像素的三维坐标方式计算相机位姿,这些方法存在的问题是与训练场景耦合严重,在新环境中缺少泛化能力。认为深度学习网络应该专注于学习鲁棒和不变的图像特征,因此介绍了一种基于多尺度图像特征对齐的优化方法,将图像特征相似性作为度量形式,将相机位姿作为优化量,通过从像素到位姿的端到端的训练,来估计相机精确的六自由度(6 degree of freedom, 6DOF)位姿。该模型参数和场景分离,对新场景有较强的泛化能力,并且具有较好的定位精度。

  • 单位
    北京控制与电子技术研究所