摘要

3D视频与2D视频的本质区别就在于3D在2D的基础上添加了深度信息,能够产生立体视觉感受,使其在自然场景的表征上更具真实感。深度信息是3D场景捕获中一个非常重要的几何量,它反映的是场景中物体到成像平面的距离。由于深度图与纹理图相比不仅更能节省码流,还能方便灵活的利用DIBR绘制出不同视角的虚拟视点;而且,近几年来,随着深度相机技术的迅速发展,价格适中的深度相机的推出为深度图的获取提供了直接快速的方式。所以,无论是从理论上还是从实际应用上,基于深度的3D视频都是非常有效和可行的方案。本文围绕3D视频中的深度图展开,研究深度图的优化和高效编码方法。本文的第一个部分重点研究高精度深度图的获取,它是后面研究工作开展的前提条件;后面三个部分研究的核心是利用深度图的特性挖掘新的深度图编码方法,在提高深度编码效率的同时保证合成视点的质量。深度相机虽然能方便、快捷地获取场景的深度信息,但是由于技术的限制,目前的深度相机得到的深度图存在分辨率低,有大量空洞等缺陷,无法直接应用到实际系统中。本文首先分析了图像插值、图像去噪等图像处理问题中两类统计建模方法的优缺点,针对深度图像的特性,结合参数化模型和非参数化模型的优点,充分利用图像不同分辨率之间的相似性以及图像内部的相似性特征,提出了一种基于混合参数模型的分级深度图优化方法。该方法在逐级修补深度图空洞的同时保存了深度图边缘特征。深度图的特点是不用来输出显示,而是用来合成一个新的视点,因此深度编码中量化带来的误差会造成合成视点的失真,应该用合成视点的失真来衡量深度编码的失真。本文从这个角度出发,探索一种以合成视点失真最小化为目标的深度编码方法。通过推导深度失真与几何失真的关系,以及几何失真与合成视点失真的关系,建立深度失真与合成视点失真模型,并将此模型应用到深度编码与联合码率分配中去。实验结果表明,与现有方法相比,本文方法能合理分配纹理和深度的编码码率,得到较高的视点合成质量。深度失真会带来合成视点的失真,而且这些失真往往发生在图像边缘。传统的基于MSE的失真衡量方法对图像里的每一个像素同等对待,不能真实反应合成视点的质量,本文将更符合人眼视觉特性的结构相似性度量(Structural Similarityindex,SSIM)引入到深度编码中,进一步深入研究深度编码中的合成视点优化(Synthesized View Optimization, VSO)问题。本文首先建立了深度编码失真与基于SSIM的合成视点失真模型;将此模型应用到深度编码的率失真优化中,建立深度编码码率与合成视点失真之间的率失真模型;估计基于SSIM的感知拉格朗日参数,指导深度编码的最优模式选择。实验结果表明,本文所提出的基于SSIM的合成视点优化在率失真性能和主观质量上都要优于基于军方误差(Mean Sequare Error,MSE)和JM的合成视点优化方法。深度图在大部分区域是平滑的,仅仅在物体边缘位置存在不连续区域,因此深度图比一般的自然图像具有更强的空间相关性。本文针对深度图的这种特征提出了基于空域的深度上下采样编码方法。下采样能大大减少编码端的输入数据量,降低编码码率;但下采样会丢失深度的边缘细节信息,造成合成视点质量的下降。本文利用高分辨率图像与其对应的低分辨率图像之间的统计特征不变性,设计基于协方差估计的深度上采样模型;利用深度图的对应纹理图的边缘相似性设计自适应权重模型,使上采样系数自适应调整以保留深度图各个方向的边缘。本文工作是对基于深度的视频编码的探索和研究,为深度信息的发展和3D视频的应用提供了新的思路和解决方法。