摘要

现有的用于矫正透视倾斜变形文档的深度学习模型存在空间泛化性差、模型参数量大、推理速度慢等问题。从姿态估计的角度出发,提出一种轻量化文档姿态估计网络DPENet(Lightweight Document Pose Estimation Network),以优化上述问题。将文档图像中的单一文档视为一个姿态估计对象,将文档的四个角点视为文档对象的四个姿态估计点,采用兼具全连接回归与高斯热图回归优点的DSNT(Differentiable Spatial to Numerical Transform)模块实现文档图像角点的高精度定位,并通过透视变换处理实现透视变形文档图像的高精度矫正。DPENet采用轻量化设计,以面向移动端的MobileNet V2为主干网络,模型体量只有10.6MB。在Smart Doc OA Sample(仅取148张文档图像)数据集上与现有的3种主流网络进行了对比实验,实验结果表明,DPENet的矫正成功率(96.6%)和平均位移精度MDE(Mean Displacement Error)(1.28个像素)均优于其他三种网络,同时其平均矫正速度也有着良好的表现。在保持轻量化和速度快的条件下,DPENet网络具有更高的变形文档矫正成功率和矫正精度。