摘要

目前,点云被广泛地用于三维物体表达,不过真实世界采集到的点云数据往往数据庞大,不利于传输与储存,点云压缩能够有效解决该问题。点云压缩的本质是利用点与点之间的空间与时间相关性来减少冗余。但是,由于点云本身的无序性、非结构化等特点,如何提取空间或时间相关性成为关键问题。本论文引入基于注意力机制的Transformer模块来解决上述问题,提出了一种基于Transformer的端到端多尺度点云几何压缩方法。具体地,首先,将点云进行体素化;然后,在编码端利用稀疏卷积提取特征,进行多尺度的逐步下采样,并且结合Transformer模块加强点空间特征感知与提取;接着,在瓶颈层,用八叉树无损编码下采样后的坐标,利用熵模型算术编码量化后的特征信息;最后,在解码端进行对应的多尺度上采样重建,同样采用Transformer模块来对有用特征进行加强与恢复,从而对体素块进行概率预测,逐步细化并重建点云。与传统点云编码方法,如Moving Picture Experts Group(MPEG)的Geometry-based Point Cloud Compression(G-PCC(Octree)、G-PCC(Trisoup)),所提出的方法平均获得80%和75%的BD-Rate增益;与基于深度学习的点云压缩方法,如Multiscale Point Cloud Geometry Compression (PCGCv2)相比,平均获得16%的BD-Rate增益,在相同码率点有约0.6的PSNR提升。上述实验结果证明了Transformer在点云压缩领域的可行性与有效性。在主观质量方面,所提出的方法也有明显的主观效果提升,重建的点云更接近原始点云。

全文