摘要

街景语义分割技术旨在从图像中识别分割出行人、障碍物、道路、标志物等要素,为车辆提供道路上自由空间的信息,是自动驾驶的关键技术之一。高性能的语义分割系统非常依赖于训练时所需的大量真实标注数据,然而为图像中的每个像素进行标注成本很高,往往难以实现。一种低成本获取标注数据的方法是利用视频游戏收集逼真且标注成本低的合成图片,来帮助机器学习模型对现实世界中的图片作语义分割,这对应域适配技术。与当前基于VC维理论或Rademacher复杂度理论的主流语义分割域适配方法不同,受基于PAC-Bayes理论的兼容伪标签函数的域适配目标域Gibbs风险上界启发,考虑假设空间的平均情况而非最差情况,以避免主流方法过度约束隐空间上的领域差异,从而导致目标域泛化误差上界未能被有效估计并优化的问题。在上述思想的指导下,提出了一种变分推断语义分割域适配方法(VISA),该方法在利用Dropout变分族进行变分推断求解假设空间上的理想后验分布的同时能快速得到一个近似Bayes分类器,并通过目标域熵最小化和筛选像素点使得对风险上界的估计更加准确。在街景语义分割数据集GTA5→Cityscapes上的适配的实验结果表明,VISA方法相比基线方法平均交并比提高了0.5%~6.6%,且在行人、车辆等关键街景要素上具有较高的识别准确率。