摘要
视觉全局定位指根据视觉相机的当前图像,预测相机在地图坐标系中的绝对位姿,是自动驾驶技术框架中的关键环节。鉴于自动驾驶的场景复杂性,目前尚无一套成熟的、已落地使用的视觉全局定位方案,但对此技术的研究依然是近年来的热点方向。在早期的视觉全局定位研究中,大量的工作基于传统计算机视觉方法,利用关键点或关键帧的匹配进行位姿估计。近年来,随着深度学习的兴起,视觉全局定位的算法也逐步开始部分地或端到端地使用神经网络模型,并且在优化框架结构和设计约束函数等方面不断取得进展。目前,在定位精度方面,部分深度学习视觉全局定位算法已经能够达到比传统算法更好的定位精度,同时具备计算耗时短、不易受光照影响和泛化性强等优势,但是也依然存在大尺度场景(10公里级别)的定位精度有待提升的问题,需要在后续的研究中通过多阶段的级联网络模型或者引入道路元素信息作为参考等方法进行改进。
-
单位中国科学院自动化研究所; 自动化学院; 北京信息科技大学