摘要

针对纹理图像光学字体识别中大部分现有方法容易出现噪声干扰和高度细分依赖的问题,提出了一种基于统计学分析的全局特征提取方法。首先,使用二值化、倾斜校正和文本归一化预处理图像,得到完整的文本块图像;然后,使用拉普拉斯过滤器降低图像的椒盐噪声,并利用反相过滤器得到白色背景和黑色边缘的图像;最后,基于模式边界边缘像素之间关系进行统计学分析以提取出22个有用特征,借助分类器完成识别。在阿拉伯文书法脚本图像数据集上的实验结果表明,本文方法使用决策树分类器可获得最好的分类精度,高达98.26%,相比其他的较为新颖的特征提取方法,本文方法获得更好的识别性能。

全文