摘要
文档图像的变形矫正对提高文档光学字符识别(optical character recognition, OCR)的准确率至关重要。透视倾斜变形文档图像的矫正一般依赖于文档角点的定位,然而目前文档图像矫正算法大都无法准确定位图像边界外的角点,导致缺角图像矫正效果不理想。针对此问题,提出了一种缺角文档图像矫正网络,采用填充缩放的方法将分布在图像边界外的角点映射到图像内,可实现对缺角图像的矫正,并构建了缺角图像数据集。针对角点映射后文档区域相对面积减小、下采样后空间信息丢失严重的问题,对MobileNetV2主干网进行改进设计,提出密集下采样卷积,充分保留空间信息的同时实现下采样;在倒置残差块中增加通道重组操作,提升特征表示能力。在解码器中使用密集上采样卷积进行上采样,确保角点定位的准确性。在SmartDoc QA(仅取146张文档图像)数据集上与5种先进的图像矫正方法进行对比,以平均位移误差(mean displacement error, MDE)指标评估角点坐标的精度,以多尺度结构相似性(multi scale structural similarity, MSSIM)指标评估矫正效果,实验表明,提出的矫正方法在非缺角图像和缺角图像上的MDE指标分别为1.043 5和2.815 1,MSSIM指标分别为0.514 4和0.525 7,均优于其他5种方法。
- 单位