摘要

对现实世界的有效感知是计算机视觉的长期努力方向,也是当前以视觉为基础的下一代人机交互的重要基础。现代计算机视觉技术可以为日常对象成功地标识语义标签,并可以在大型复杂场景重建对应空间信息的稠密深度图。然而,针对视野内物理场景的同时语义和空间统一理解仍然是一个具有挑战性的问题,也成为服务并赋能视觉人机交互(XR)的下一代人工智能技术的核心里程碑。当前,我们正寻求一种对周围世界理解和数字重建的创新能力,其中比较有代表意义的新兴领域是基于深度神经网络的"语义及空间尺度协同感知"。本文总结了当前基于深度神经网络的"语义及空间尺度统一理解"的最新趋势,通过回顾当前基于成熟计算机视觉和机器学习所开展的稠密三维语义建图,以及如何借助深度神经网络技术发展推动的语义及空间尺度协同感知的创新实践,展示了这种新兴能力的潜在技术价值和可以预见的广阔创新空间。

全文